What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

Remodeler le raisonnement dans les LLM : une analyse théorique de la dynamique d'entraînement RL à travers la sélection de motifs

Key Points

L'apprentissage par renforcement remodelle les motifs de raisonnement en optimisant un sous-ensemble clairsemé de tokens critiques pendant l'entraînement.
L'analyse empirique révèle des taux de succès stables à travers les motifs de raisonnement, les tokens optimisés pilotant la performance du modèle.
Le cadre théorique explore les comportements de convergence pour deux types de récompenses, soulignant l'importance de la qualité du raisonnement du modèle de base.
Les récompenses basées sur le retour interne peuvent initialement améliorer la performance mais peuvent dégrader les résultats avec un entraînement prolongé.

Abstract

Alors que l'apprentissage par renforcement (RL) a montré un succès remarquable pour améliorer les capacités de raisonnement des modèles de langage, la dynamique d'entraînement du RL dans les LLM reste peu claire. Dans ce travail, nous fournissons une explication du processus d'entraînement par RL via une analyse empirique et une modélisation théorique rigoureuse. D'abord, à travers une analyse systématique au niveau des motifs de raisonnement et des tokens tout au long du processus d'entraînement RL, nous montrons que si différents motifs de raisonnement présentent des taux de réussite relativement stables pendant l'entraînement, le RL optimise principalement un sous-ensemble clairsemé de tokens critiques, remodelant ainsi la distribution des motifs de raisonnement pour affecter la performance du modèle. S'appuyant sur ces insights empiriques, nous développons un cadre théorique pour comprendre la dynamique d'entraînement du RL avec deux récompenses typiques : la récompense vérifiable (RLVR) et le retour interne du modèle (RLIF). Pour RLVR, nous analysons la dynamique d'entraînement sous deux cas particuliers : un où les modèles convergent facilement vers des stratégies de raisonnement optimales, et un autre où l'optimisation devient difficile, révélant que la qualité du raisonnement du modèle de base est cruciale pour déterminer le comportement de convergence. Pour RLIF, nous examinons comment les récompenses internes améliorent initialement la performance du modèle mais peuvent potentiellement entraîner une dégradation avec un entraînement prolongé. De nombreuses expériences valident nos découvertes, faisant progresser à la fois la compréhension théorique et les applications pratiques du RL dans l'amélioration des modèles de langage.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xingwu Chen

Tianle Li

Difan Zou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Remodeler le raisonnement dans les LLM : une analyse théorique de la dynamique d'entraînement RL à travers la sélection de motifs

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider