Key points are not available for this paper at this time.
Malgré les capacités impressionnantes des grands modèles de langage (LLMs) sur diverses tâches, ils éprouvent encore des difficultés avec les scénarios impliquant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques de prompting avancées et la nécessité de fine-tuning avec des données de haute qualité pour augmenter les capacités de raisonnement des LLMs. Cependant, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. Dans ce contexte, l'auto-correction et l'auto-apprentissage émergent comme des solutions viables, utilisant des stratégies permettant aux LLMs d'affiner leurs sorties et d'apprendre à partir de récompenses auto-évaluées. Pourtant, l'efficacité des LLMs à s'auto-améliorer, en particulier dans les tâches complexes de raisonnement et de planification, reste douteuse. Dans cet article, nous présentons AlphaLLM pour l'auto-amélioration des LLMs, qui intègre la recherche arborescente Monte Carlo (MCTS) avec les LLMs afin d'établir une boucle d'auto-amélioration, améliorant ainsi les capacités des LLMs sans annotations supplémentaires. S'inspirant du succès d'AlphaGo, AlphaLLM aborde les défis uniques de la combinaison de la MCTS avec les LLMs pour l'auto-amélioration, incluant la rareté des données, l'immensité des espaces de recherche des tâches linguistiques, et la subjectivité des retours dans les tâches de langage. AlphaLLM se compose d'un composant de synthèse de prompts, d'une approche MCTS efficace adaptée aux tâches linguistiques, et d'un trio de modèles critique pour un feedback précis. Nos résultats expérimentaux dans des tâches de raisonnement mathématique démontrent qu'AlphaLLM améliore significativement les performances des LLMs sans annotations supplémentaires, montrant ainsi le potentiel d'auto-amélioration des LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ye Tian
Baolin Peng
Linfeng Song
Building similarity graph...
Analyzing shared references across papers
Loading...
Tian et al. (jeu,) ont étudié cette question.
www.synapsesocial.com/papers/68e6e8afb6db643587663c2d — DOI: https://doi.org/10.48550/arxiv.2404.12253