April 18, 2024Open Access

Rumo à Autoaperfeiçoamento de LLMs via Imaginação, Busca e Crítica

Key Points

Key points are not available for this paper at this time.

Abstract

Apesar das capacidades impressionantes dos Large Language Models (LLMs) em várias tarefas, eles ainda enfrentam dificuldades em cenários que envolvem raciocínio complexo e planejamento. Trabalhos recentes propuseram técnicas avançadas de prompting e a necessidade de fine-tuning com dados de alta qualidade para aumentar as habilidades de raciocínio dos LLMs. Contudo, essas abordagens são inerentemente limitadas pela disponibilidade e qualidade dos dados. À luz disso, autocorreção e autoaprendizado emergem como soluções viáveis, empregando estratégias que permitem aos LLMs refinarem suas saídas e aprenderem a partir de recompensas autoavaliadas. Entretanto, a eficácia dos LLMs em auto-refinar suas respostas, especialmente em tarefas complexas de raciocínio e planejamento, permanece duvidosa. Neste artigo, introduzimos AlphaLLM para o autoaperfeiçoamento de LLMs, que integra Monte Carlo Tree Search (MCTS) com LLMs para estabelecer um ciclo de autoaperfeiçoamento, aprimorando assim as capacidades dos LLMs sem anotações adicionais. Inspirando-se no sucesso do AlphaGo, AlphaLLM aborda os desafios únicos de combinar MCTS com LLM para autoaperfeiçoamento, incluindo escassez de dados, a vastidão dos espaços de busca das tarefas linguísticas e a natureza subjetiva do feedback em tarefas linguísticas. AlphaLLM é composto por um componente de síntese de prompts, uma abordagem eficiente de MCTS adaptada para tarefas linguísticas e um trio de modelos críticos para feedback preciso. Nossos resultados experimentais em tarefas de raciocínio matemático demonstram que AlphaLLM melhora significativamente o desempenho dos LLMs sem anotações adicionais, mostrando potencial para autoaperfeiçoamento em LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ye Tian

Baolin Peng

Linfeng Song

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Rumo à Autoaperfeiçoamento de LLMs via Imaginação, Busca e Crítica

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider