What type of study is this?

October 1, 2025Open Access

SRPO: Eine domänenübergreifende Implementierung groß angelegten Reinforcement Learnings auf LLM

Key Points

SRPO übertrifft DeepSeek-R1-Zero-32B signifikant bei Benchmarks wie AIME24 und demonstriert eine verbesserte Effizienz im Reasoning.
Es erreicht dies mit etwa 1/10 der Trainingsschritte im Vergleich zu DeepSeek-R1-Zero-32B, was auf eine überlegene Trainings-Effizienz hinweist.
Die Methodik führt ein zweistufiges Trainingsparadigma ein, um sowohl mathematisches Reasoning als auch Programmierfähigkeiten in LLMs zu fördern.
Umfassende Experimente stützen die Wirksamkeit von SRPO bei der Skalierung der Reasoning-Fähigkeiten von LLMs über verschiedene Aufgaben hinweg.

Abstract

Jüngste Fortschritte bei Reasoning-Modellen, exemplifiziert durch OpenAIs o1 und DeepSeeks R1, heben das bedeutende Potenzial von Reinforcement Learning (RL) hervor, um die Reasoning-Fähigkeiten von Large Language Models (LLMs) zu verbessern. Jedoch bleibt die Replikation dieser Fortschritte in unterschiedlichen Domänen aufgrund begrenzter methodischer Transparenz herausfordernd. In dieser Arbeit präsentieren wir Two-Staged history-Resampling Policy Optimization (SRPO), das die Leistung von DeepSeek-R1-Zero-32B bei den Benchmarks AIME24 und LiveCodeBench übertrifft. SRPO erreicht dies mit demselben Basismodell wie DeepSeek (d.h. Qwen2.5-32B) und benötigt dabei nur etwa 1/10 der Trainingsschritte, die DeepSeek-R1-Zero-32B erfordert, was eine überlegene Effizienz demonstriert. Aufbauend auf Group Relative Policy Optimization (GRPO) führen wir zwei wichtige methodische Innovationen ein: (1) ein zweistufiges domänenübergreifendes Trainingsparadigma, das die Entwicklung mathematischen Reasonings und der Programmierfähigkeiten ausbalanciert, und (2) History Resampling (HR), eine Technik zur Behandlung ineffektiver Proben. Unsere umfassenden Experimente bestätigen die Wirksamkeit unseres Ansatzes und bieten wertvolle Einblicke in die Skalierung der Reasoning-Fähigkeiten von LLMs über vielfältige Aufgaben hinweg.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiaojiang Zhang

Jinghui Wang

Zifei Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SRPO: Eine domänenübergreifende Implementierung groß angelegten Reinforcement Learnings auf LLM

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider