Key points are not available for this paper at this time.
Localizar a capacidade de raciocínio de grandes modelos de linguagem (LLMs) para tarefas incorporadas é desafiador devido à complexidade do mundo físico. Especialmente, o planejamento de LLM para colaboração de multiagentes requer comunicação entre os agentes ou atribuição de crédito como feedback para reajustar os planos propostos e alcançar uma coordenação eficaz. No entanto, os métodos existentes que dependem excessivamente da verificação física ou autorreflexão sofrem de consultas excessivas e ineficientes aos LLMs. Neste artigo, propomos uma nova estrutura para colaboração de multiagentes que introduz o feedback de Vantagem Reforçada (ReAd) para auto-refinamento eficiente dos planos. Especificamente, realizamos regressão crítica para aprender uma função sequencial de vantagem a partir de dados de planejamento do LLM, e então tratamos o planejador LLM como um otimizador para gerar ações que maximizem a função de vantagem. Isso dota o LLM de previsão para discernir se a ação contribui para a realização da tarefa final. Fornecemos análise teórica ao estender a regressão ponderada por vantagem em aprendizado por reforço para sistemas multiagentes. Experimentos no Overcooked-AI e uma variante difícil do RoCoBench mostram que o ReAd supera os baselines na taxa de sucesso, e também diminui significativamente os passos de interação dos agentes e as rodadas de consulta dos LLMs, demonstrando sua alta eficiência para o grounding de LLMs. Mais resultados estão disponíveis em https: //read-llm. github. io/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Zhang
Shixin Yang
Chenjia Bai
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Qui,) estudaram esta questão.
www.synapsesocial.com/papers/68e68cfdb6db643587614c36 — DOI: https://doi.org/10.48550/arxiv.2405.14314
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: