O sucesso dos Large Language Models (LLMs) despertou interesse em várias aplicações agentes. Uma hipótese chave é que os LLMs, aproveitando o senso comum e o raciocínio em Cadeia de Pensamento (CoT), podem explorar efetivamente e resolver domínios complexos de forma eficiente. No entanto, foi constatado que agentes LLMs sofrem de exploração subótima e da lacuna entre saber e fazer, a incapacidade de agir efetivamente com o conhecimento presente no modelo. Neste trabalho, estudamos sistematicamente por que os LLMs apresentam desempenho subótimo em cenários de tomada de decisão. Em particular, examinamos de perto três modos de falha prevalentes: ganância, viés de frequência e a lacuna entre saber e fazer. Propomos a mitigação dessas deficiências por meio de ajuste fino via Aprendizado por Reforço (RL) em raciocínios CoT auto-gerados. Nossos experimentos em multi-armed bandits, contextual bandits e Jogo da Velha demonstram que o ajuste fino com RL melhora as habilidades de tomada de decisão dos LLMs ao aumentar a exploração e reduzir a lacuna entre saber e fazer. Finalmente, estudamos tanto mecanismos clássicos de exploração, como -greedy, quanto abordagens específicas de LLM, como autocorreção e autoconsistência, para possibilitar um ajuste fino mais eficaz dos LLMs para tomada de decisão.
Building similarity graph...
Analyzing shared references across papers
Loading...
Thomas Schmied
Jörg Bornschein
Jordi Grau-Moya
Building similarity graph...
Analyzing shared references across papers
Loading...
Schmied et al. (Tue,) estudaram esta questão.
www.synapsesocial.com/papers/68dd91cbfe798ba2fc4987a6 — DOI: https://doi.org/10.48550/arxiv.2504.16078
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: