July 25, 2024Open Access

L’auto-apprentissage avec optimisation directe des préférences améliore le raisonnement en chaîne de pensée

Key Points

Key points are not available for this paper at this time.

Abstract

La formation efficace des modèles de langage (LM) pour les tâches de raisonnement mathématique exige des données de fine-tuning supervisé de haute qualité. Outre l'obtention d'annotations auprès d'experts humains, une alternative courante est l’échantillonnage à partir de LM plus grands et plus puissants. Cependant, cette approche de distillation des connaissances peut être coûteuse et instable, en particulier lorsqu'on s'appuie sur des LM propriétaires à source fermée comme GPT-4, dont les comportements sont souvent imprévisibles. Dans ce travail, nous démontrons que les capacités de raisonnement des LM de petite taille peuvent être améliorées par auto-apprentissage, un processus où les modèles apprennent de leurs propres sorties. Nous montrons également que l'auto-apprentissage conventionnel peut être encore renforcé par un algorithme d’apprentissage des préférences appelé Direct Preference Optimization (DPO). En intégrant DPO dans l'auto-apprentissage, nous exploitons les données de préférence pour orienter les LM vers un raisonnement en chaîne de pensée plus précis et diversifié. Nous évaluons notre méthode sur diverses tâches de raisonnement mathématique en utilisant différents modèles de base. Nos expériences montrent que cette approche améliore non seulement la performance des LM en raisonnement, mais offre également une solution plus rentable et évolutive par rapport à la dépendance aux grands LM propriétaires.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tianduo Wang

Shichen Li

Wei Lu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

L’auto-apprentissage avec optimisation directe des préférences améliore le raisonnement en chaîne de pensée

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider