February 25, 2024Open Access

Como o LLM Pode Guiar o RL? Uma Abordagem Baseada em Valor

Key Points

Key points are not available for this paper at this time.

Abstract

O aprendizado por reforço (RL) tornou-se a prática padrão de fato para problemas de tomada de decisão sequencial, melhorando políticas futuras de atuação com base em feedback. No entanto, os algoritmos de RL podem requerer extensas interações de tentativa e erro para coletar feedback útil para aprimoramento. Por outro lado, os desenvolvimentos recentes em grandes modelos de linguagem (LLMs) demonstraram capacidades impressionantes em compreensão e geração de linguagem, mas eles são limitados em capacidades de exploração e autoaperfeiçoamento para tarefas de planejamento, carecendo da habilidade de refinar autonomamente suas respostas com base em feedback. Portanto, neste artigo, estudamos como a política prévia fornecida pelo LLM pode melhorar a eficiência amostral dos algoritmos de RL. Especificamente, desenvolvemos um algoritmo chamado LINVIT que incorpora a orientação do LLM como um fator de regularização em RL baseado em valor, levando a reduções significativas na quantidade de dados necessários para aprendizado, particularmente quando a diferença entre a política ideal e a política informada pelo LLM é pequena, o que sugere que a política inicial está próxima do ideal, reduzindo a necessidade de exploração adicional. Além disso, apresentamos um algoritmo prático SLINVIT que simplifica a construção da função de valor e emprega subobjetivos para reduzir a complexidade da busca. Nossos experimentos em três ambientes interativos ALFWorld, InterCode e BlocksWorld demonstram que nosso método alcança taxas de sucesso de estado-da-arte e também supera abordagens anteriores de RL e LLM em termos de eficiência amostral. Nosso código está disponível em https://github.com/agentification/Language-Integrated-VI.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shenao Zhang

Sirui Zheng

Sikai Ke

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Como o LLM Pode Guiar o RL? Uma Abordagem Baseada em Valor

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider