What type of study is this?

October 1, 2025Open Access

SRPO: تنفيذ عبر المجالات لتعلم التعزيز واسع النطاق على LLM

Key Points

يتفوق SRPO بشكل ملحوظ على DeepSeek-R1-Zero-32B في معايير مثل AIME24، مما يبرز كفاءة محسنة في الاستدلال.
يحقق ذلك باستخدام حوالي عُشر خطوات التدريب مقارنة بـ DeepSeek-R1-Zero-32B، مما يشير إلى كفاءة تدريب متفوقة.
تُدخل المنهجية نموذج تدريب من مرحلتين لتعزيز كل من الاستدلال الرياضي ومهارات الترميز في نماذج اللغة الكبيرة.
تدعم التجارب الشاملة فعالية SRPO في توسيع قدرات الاستدلال في نماذج اللغة الكبيرة عبر مهام متنوعة.

Abstract

تشير التطورات الحديثة في نماذج الاستدلال، كما يتجلى في o1 من OpenAI وR1 من DeepSeek، إلى الإمكانات الكبيرة لتعلم التعزيز (RL) لتعزيز قدرات الاستدلال في نماذج اللغة الكبيرة (LLMs). ومع ذلك، يظل تكرار هذه الإنجازات عبر مجالات متنوعة تحديًا بسبب محدودية الشفافية المنهجية. في هذا العمل، نقدم تحسين سياسة إعادة أخذ العينات التاريخية على مرحلتين (SRPO)، الذي يتفوق في الأداء على DeepSeek-R1-Zero-32B في مجموعات الاختبار AIME24 وLiveCodeBench. يحقق SRPO ذلك باستخدام نفس النموذج الأساسي مثل DeepSeek (أي Qwen2.5-32B)، مستخدمًا حوالي عُشر خطوات التدريب التي يتطلبها DeepSeek-R1-Zero-32B، مما يدل على كفاءة متفوقة. وبناءً على تحسين سياسة المجموعة النسبية (GRPO)، نقدم ابتكارين منهجيين رئيسيين: (1) نموذج تدريب عبر مجالين من مرحلتين مصمم لتحقيق التوازن بين تطوير الاستدلال الرياضي وكفاءة الترميز، و(2) إعادة أخذ عينات من التاريخ (HR)، تقنية لمعالجة العينات غير الفعالة. تدعم تجاربنا الشاملة فعالية نهجنا، مقدمة رؤى قيمة حول توسيع قدرات الاستدلال في LLM عبر مهام متنوعة.

SRPO: تنفيذ عبر المجالات لتعلم التعزيز واسع النطاق على LLM

Key Points

Abstract

Cite This Study