Key points are not available for this paper at this time.
O aprendizado por reforço (RL) tornou-se a prática padrão de fato para problemas de tomada de decisão sequencial, melhorando políticas futuras de atuação com base em feedback. No entanto, os algoritmos de RL podem requerer extensas interações de tentativa e erro para coletar feedback útil para aprimoramento. Por outro lado, os desenvolvimentos recentes em grandes modelos de linguagem (LLMs) demonstraram capacidades impressionantes em compreensão e geração de linguagem, mas eles são limitados em capacidades de exploração e autoaperfeiçoamento para tarefas de planejamento, carecendo da habilidade de refinar autonomamente suas respostas com base em feedback. Portanto, neste artigo, estudamos como a política prévia fornecida pelo LLM pode melhorar a eficiência amostral dos algoritmos de RL. Especificamente, desenvolvemos um algoritmo chamado LINVIT que incorpora a orientação do LLM como um fator de regularização em RL baseado em valor, levando a reduções significativas na quantidade de dados necessários para aprendizado, particularmente quando a diferença entre a política ideal e a política informada pelo LLM é pequena, o que sugere que a política inicial está próxima do ideal, reduzindo a necessidade de exploração adicional. Além disso, apresentamos um algoritmo prático SLINVIT que simplifica a construção da função de valor e emprega subobjetivos para reduzir a complexidade da busca. Nossos experimentos em três ambientes interativos ALFWorld, InterCode e BlocksWorld demonstram que nosso método alcança taxas de sucesso de estado-da-arte e também supera abordagens anteriores de RL e LLM em termos de eficiência amostral. Nosso código está disponível em https://github.com/agentification/Language-Integrated-VI.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shenao Zhang
Sirui Zheng
Sikai Ke
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Sun,) estudaram essa questão.
www.synapsesocial.com/papers/68e77b35b6db6435876ef8f2 — DOI: https://doi.org/10.48550/arxiv.2402.16181
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: