Key points are not available for this paper at this time.
La formation efficace des modèles de langage (LM) pour les tâches de raisonnement mathématique exige des données de fine-tuning supervisé de haute qualité. Outre l'obtention d'annotations auprès d'experts humains, une alternative courante est l’échantillonnage à partir de LM plus grands et plus puissants. Cependant, cette approche de distillation des connaissances peut être coûteuse et instable, en particulier lorsqu'on s'appuie sur des LM propriétaires à source fermée comme GPT-4, dont les comportements sont souvent imprévisibles. Dans ce travail, nous démontrons que les capacités de raisonnement des LM de petite taille peuvent être améliorées par auto-apprentissage, un processus où les modèles apprennent de leurs propres sorties. Nous montrons également que l'auto-apprentissage conventionnel peut être encore renforcé par un algorithme d’apprentissage des préférences appelé Direct Preference Optimization (DPO). En intégrant DPO dans l'auto-apprentissage, nous exploitons les données de préférence pour orienter les LM vers un raisonnement en chaîne de pensée plus précis et diversifié. Nous évaluons notre méthode sur diverses tâches de raisonnement mathématique en utilisant différents modèles de base. Nos expériences montrent que cette approche améliore non seulement la performance des LM en raisonnement, mais offre également une solution plus rentable et évolutive par rapport à la dépendance aux grands LM propriétaires.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tianduo Wang
Shichen Li
Wei Lu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (jeu,) ont étudié cette question.
www.synapsesocial.com/papers/68e5f2d2b6db6435875874b2 — DOI: https://doi.org/10.48550/arxiv.2407.18248
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: