تشير التطورات الحديثة في نماذج الاستدلال، كما يتجلى في o1 من OpenAI وR1 من DeepSeek، إلى الإمكانات الكبيرة لتعلم التعزيز (RL) لتعزيز قدرات الاستدلال في نماذج اللغة الكبيرة (LLMs). ومع ذلك، يظل تكرار هذه الإنجازات عبر مجالات متنوعة تحديًا بسبب محدودية الشفافية المنهجية. في هذا العمل، نقدم تحسين سياسة إعادة أخذ العينات التاريخية على مرحلتين (SRPO)، الذي يتفوق في الأداء على DeepSeek-R1-Zero-32B في مجموعات الاختبار AIME24 وLiveCodeBench. يحقق SRPO ذلك باستخدام نفس النموذج الأساسي مثل DeepSeek (أي Qwen2.5-32B)، مستخدمًا حوالي عُشر خطوات التدريب التي يتطلبها DeepSeek-R1-Zero-32B، مما يدل على كفاءة متفوقة. وبناءً على تحسين سياسة المجموعة النسبية (GRPO)، نقدم ابتكارين منهجيين رئيسيين: (1) نموذج تدريب عبر مجالين من مرحلتين مصمم لتحقيق التوازن بين تطوير الاستدلال الرياضي وكفاءة الترميز، و(2) إعادة أخذ عينات من التاريخ (HR)، تقنية لمعالجة العينات غير الفعالة. تدعم تجاربنا الشاملة فعالية نهجنا، مقدمة رؤى قيمة حول توسيع قدرات الاستدلال في LLM عبر مهام متنوعة.
درس Zhang وآخرون (Sat,) هذا السؤال.