Verstärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat bemerkenswerte Erfolge bei der Verbesserung der Denkfähigkeiten großer Sprachmodelle (LLMs) erzielt. Allerdings leiden bestehende RLVR-Methoden oft unter ineffizienter Exploration aufgrund von Diskrepanzen zwischen dem Schwierigkeitsgrad der Trainingsdaten und den Fähigkeiten des Modells. LLMs entdecken keine gangbaren Denkpfade, wenn Probleme zu schwierig sind, während sie wenig neue Fähigkeiten lernen, wenn Probleme zu einfach sind. In dieser Arbeit formalieren wir den Einfluss des Schwierigkeitsgrads, indem wir die Beziehung zwischen Verlustabnahmerate und Genauigkeit der Durchläufe quantifizieren. Aufbauend auf dieser Analyse schlagen wir SEELE vor, ein neuartiges, überwachtes RLVR-Rahmenwerk, das die Schwierigkeit der Probleme dynamisch anpasst, um im effizienzstarken Bereich zu verbleiben. SEELE ergänzt jede Trainingsprobe, indem es nach dem ursprünglichen Problem einen Hinweis (Teil einer vollständigen Lösung) anfügt. Im Gegensatz zu früheren hinweisbasierten Ansätzen passt SEELE gezielt und adaptiv die Länge des Hinweises für jedes Problem an, um eine optimale Schwierigkeit zu erreichen. Um die optimale Hinweislänge zu bestimmen, verwendet SEELE eine mehrstufige Rollout-Sampling-Strategie. In jeder Runde passt es ein Item-Response-Theorie-Modell an die in vorangegangenen Runden gesammelten Genauigkeits-Hinweis-Paare an, um die benötigte Hinweislänge für die nächste Runde vorherzusagen. Diese instanzspezifische, Echtzeit-Schwierigkeitsanpassung gleicht den Problemdschwierigkeitsgrad mit der sich entwickelnden Modellfähigkeit ab, wodurch die Explorationseffizienz verbessert wird. Experimentelle Ergebnisse zeigen, dass SEELE Group Relative Policy Optimization (GRPO) und überwachtes Feintuning (SFT) um +11,8 bzw. +10,5 Punkte übertrifft und damit den bisher besten überwachten Ansatz im Durchschnitt über sechs mathematische Denkbenchmarks um +3,6 Punkte schlägt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Z. Li
Zihan Sun
Jiawei Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68ec1be02b8fa9b2b78ad2f4 — DOI: https://doi.org/10.48550/arxiv.2509.06923
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: