Alors que l'apprentissage par renforcement (RL) a montré un succès remarquable pour améliorer les capacités de raisonnement des modèles de langage, la dynamique d'entraînement du RL dans les LLM reste peu claire. Dans ce travail, nous fournissons une explication du processus d'entraînement par RL via une analyse empirique et une modélisation théorique rigoureuse. D'abord, à travers une analyse systématique au niveau des motifs de raisonnement et des tokens tout au long du processus d'entraînement RL, nous montrons que si différents motifs de raisonnement présentent des taux de réussite relativement stables pendant l'entraînement, le RL optimise principalement un sous-ensemble clairsemé de tokens critiques, remodelant ainsi la distribution des motifs de raisonnement pour affecter la performance du modèle. S'appuyant sur ces insights empiriques, nous développons un cadre théorique pour comprendre la dynamique d'entraînement du RL avec deux récompenses typiques : la récompense vérifiable (RLVR) et le retour interne du modèle (RLIF). Pour RLVR, nous analysons la dynamique d'entraînement sous deux cas particuliers : un où les modèles convergent facilement vers des stratégies de raisonnement optimales, et un autre où l'optimisation devient difficile, révélant que la qualité du raisonnement du modèle de base est cruciale pour déterminer le comportement de convergence. Pour RLIF, nous examinons comment les récompenses internes améliorent initialement la performance du modèle mais peuvent potentiellement entraîner une dégradation avec un entraînement prolongé. De nombreuses expériences valident nos découvertes, faisant progresser à la fois la compréhension théorique et les applications pratiques du RL dans l'amélioration des modèles de langage.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xingwu Chen
Tianle Li
Difan Zou
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Thu,) ont étudié cette question.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac36225 — DOI: https://doi.org/10.48550/arxiv.2506.04695
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: