Jüngste Fortschritte bei Reasoning-Modellen, exemplifiziert durch OpenAIs o1 und DeepSeeks R1, heben das bedeutende Potenzial von Reinforcement Learning (RL) hervor, um die Reasoning-Fähigkeiten von Large Language Models (LLMs) zu verbessern. Jedoch bleibt die Replikation dieser Fortschritte in unterschiedlichen Domänen aufgrund begrenzter methodischer Transparenz herausfordernd. In dieser Arbeit präsentieren wir Two-Staged history-Resampling Policy Optimization (SRPO), das die Leistung von DeepSeek-R1-Zero-32B bei den Benchmarks AIME24 und LiveCodeBench übertrifft. SRPO erreicht dies mit demselben Basismodell wie DeepSeek (d.h. Qwen2.5-32B) und benötigt dabei nur etwa 1/10 der Trainingsschritte, die DeepSeek-R1-Zero-32B erfordert, was eine überlegene Effizienz demonstriert. Aufbauend auf Group Relative Policy Optimization (GRPO) führen wir zwei wichtige methodische Innovationen ein: (1) ein zweistufiges domänenübergreifendes Trainingsparadigma, das die Entwicklung mathematischen Reasonings und der Programmierfähigkeiten ausbalanciert, und (2) History Resampling (HR), eine Technik zur Behandlung ineffektiver Proben. Unsere umfassenden Experimente bestätigen die Wirksamkeit unseres Ansatzes und bieten wertvolle Einblicke in die Skalierung der Reasoning-Fähigkeiten von LLMs über vielfältige Aufgaben hinweg.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaojiang Zhang
Jinghui Wang
Zifei Cheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Sa,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68dd91c7fe798ba2fc4982cc — DOI: https://doi.org/10.48550/arxiv.2504.14286
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: