April 18, 2024Open Access

Vers l'auto-amélioration des LLMs via l'imagination, la recherche et la critique

Key Points

Key points are not available for this paper at this time.

Abstract

Malgré les capacités impressionnantes des grands modèles de langage (LLMs) sur diverses tâches, ils éprouvent encore des difficultés avec les scénarios impliquant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques de prompting avancées et la nécessité de fine-tuning avec des données de haute qualité pour augmenter les capacités de raisonnement des LLMs. Cependant, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. Dans ce contexte, l'auto-correction et l'auto-apprentissage émergent comme des solutions viables, utilisant des stratégies permettant aux LLMs d'affiner leurs sorties et d'apprendre à partir de récompenses auto-évaluées. Pourtant, l'efficacité des LLMs à s'auto-améliorer, en particulier dans les tâches complexes de raisonnement et de planification, reste douteuse. Dans cet article, nous présentons AlphaLLM pour l'auto-amélioration des LLMs, qui intègre la recherche arborescente Monte Carlo (MCTS) avec les LLMs afin d'établir une boucle d'auto-amélioration, améliorant ainsi les capacités des LLMs sans annotations supplémentaires. S'inspirant du succès d'AlphaGo, AlphaLLM aborde les défis uniques de la combinaison de la MCTS avec les LLMs pour l'auto-amélioration, incluant la rareté des données, l'immensité des espaces de recherche des tâches linguistiques, et la subjectivité des retours dans les tâches de langage. AlphaLLM se compose d'un composant de synthèse de prompts, d'une approche MCTS efficace adaptée aux tâches linguistiques, et d'un trio de modèles critique pour un feedback précis. Nos résultats expérimentaux dans des tâches de raisonnement mathématique démontrent qu'AlphaLLM améliore significativement les performances des LLMs sans annotations supplémentaires, montrant ainsi le potentiel d'auto-amélioration des LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ye Tian

Baolin Peng

Linfeng Song

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Vers l'auto-amélioration des LLMs via l'imagination, la recherche et la critique

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study