What type of study is this?

This is a Experimental Study study.

October 12, 2025Open Access

Im Sweet Spot bleiben: Evolution des reaktionsfähigen Denkens durch fähigkeitsadaptives Hinweisgerüst

Key Points

SEELE erhöht die Explorationseffizienz, indem es die Problemschwierigkeit an die Modellfähigkeiten anpasst, was zu besseren Denkergebnissen führt.
Experimentelle Ergebnisse zeigen, dass SEELE bei mathematischen Denkaufgaben die Leistung gegenüber Group Relative Policy Optimization um +11,8 Punkte verbessert.
Durch den Einsatz eines Item-Response-Theorie-Modells sagt SEELE optimale Hinweislängen voraus und passt sich effektiv an Herausforderungen während des Trainings an.
Die dynamische Schwierigkeitsanpassung ermöglicht ein effizienteres Lernerlebnis, indem sie Diskrepanzen zwischen Problemschwierigkeit und Modellfähigkeit adressiert.

Abstract

Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat bemerkenswerte Erfolge bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) erzielt. Allerdings leiden bestehende RLVR-Methoden oft unter ineffizienter Exploration aufgrund von Diskrepanzen zwischen dem Schwierigkeitsgrad der Trainingsdaten und den Fähigkeiten des Modells. LLMs entdecken keine gangbaren Denkpfade, wenn Probleme zu schwierig sind, während sie wenig neue Fähigkeiten lernen, wenn Probleme zu einfach sind. In dieser Arbeit formalieren wir den Einfluss des Schwierigkeitsgrads, indem wir die Beziehung zwischen Verlustabnahmerate und Genauigkeit der Durchläufe quantifizieren. Aufbauend auf dieser Analyse schlagen wir SEELE vor, ein neuartiges, überwachtes RLVR-Rahmenwerk, das die Schwierigkeit der Probleme dynamisch anpasst, um im effizienzstarken Bereich zu verbleiben. SEELE ergänzt jede Trainingsprobe, indem es nach dem ursprünglichen Problem einen Hinweis (Teil einer vollständigen Lösung) anfügt. Im Gegensatz zu früheren hinweisbasierten Ansätzen passt SEELE gezielt und adaptiv die Länge des Hinweises für jedes Problem an, um eine optimale Schwierigkeit zu erreichen. Um die optimale Hinweislänge zu bestimmen, verwendet SEELE eine mehrstufige Rollout-Sampling-Strategie. In jeder Runde passt es ein Item-Response-Theorie-Modell an die in vorangegangenen Runden gesammelten Genauigkeits-Hinweis-Paare an, um die benötigte Hinweislänge für die nächste Runde vorherzusagen. Diese instanzspezifische, Echtzeit-Schwierigkeitsanpassung gleicht den Problemdschwierigkeitsgrad mit der sich entwickelnden Modellfähigkeit ab, wodurch die Explorationseffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEELE Group Relative Policy Optimization (GRPO) und überwachtes Feintuning (SFT) um +11,8 bzw. +10,5 Punkte übertrifft und damit den bisher besten überwachten Ansatz im Durchschnitt über sechs mathematische Denkbenchmarks um +3,6 Punkte schlägt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Z. Li

Zihan Sun

Jiawei Zhao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Im Sweet Spot bleiben: Evolution des reaktionsfähigen Denkens durch fähigkeitsadaptives Hinweisgerüst

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider