What type of study is this?

This is a Quantitative Study study.

October 1, 2025Open Access

LLMs são Agentes Gananciosos: Efeitos do Ajuste Fino com RL nas Habilidades de Tomada de Decisão

Key Points

O ajuste fino com RL melhora a tomada de decisão em LLMs ao abordar a exploração subótima.
Três modos de falha identificados incluem ganância, viés de frequência e a lacuna entre saber e fazer.
Experimentos em várias tarefas demonstram aumento da exploração usando técnicas de aprendizado por reforço.
Abordagens clássicas e específicas de LLM foram estudadas para ajuste fino eficaz na tomada de decisão.

Abstract

O sucesso dos Large Language Models (LLMs) despertou interesse em várias aplicações agentes. Uma hipótese chave é que os LLMs, aproveitando o senso comum e o raciocínio em Cadeia de Pensamento (CoT), podem explorar efetivamente e resolver domínios complexos de forma eficiente. No entanto, foi constatado que agentes LLMs sofrem de exploração subótima e da lacuna entre saber e fazer, a incapacidade de agir efetivamente com o conhecimento presente no modelo. Neste trabalho, estudamos sistematicamente por que os LLMs apresentam desempenho subótimo em cenários de tomada de decisão. Em particular, examinamos de perto três modos de falha prevalentes: ganância, viés de frequência e a lacuna entre saber e fazer. Propomos a mitigação dessas deficiências por meio de ajuste fino via Aprendizado por Reforço (RL) em raciocínios CoT auto-gerados. Nossos experimentos em multi-armed bandits, contextual bandits e Jogo da Velha demonstram que o ajuste fino com RL melhora as habilidades de tomada de decisão dos LLMs ao aumentar a exploração e reduzir a lacuna entre saber e fazer. Finalmente, estudamos tanto mecanismos clássicos de exploração, como -greedy, quanto abordagens específicas de LLM, como autocorreção e autoconsistência, para possibilitar um ajuste fino mais eficaz dos LLMs para tomada de decisão.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Thomas Schmied

Jörg Bornschein

Jordi Grau-Moya

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLMs são Agentes Gananciosos: Efeitos do Ajuste Fino com RL nas Habilidades de Tomada de Decisão

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider