What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

PipelineRL: تعلم تعزيز أسرع على السياسة لتوليد تسلسل طويل

Key Points

يحقق PipelineRL تعلمًا أسرع بحوالي 2 ضعف، معززًا كفاءة نماذج التعلم التعزيزي.
أظهرت التجارب التي أُجريت على مهام الاستدلال طويلة الشكل باستخدام 128 وحدة H100 GPU الحفاظ على ملاءمة البيانات للسياسة.
يعزز توليد البيانات غير المتزامن المتزامن وتدريب النموذج كلا من استخدام الأجهزة وحداثة البيانات.
تنفيذ PipelineRL قابل للتوسع والوحدات، موفرًا مساهمات كبيرة في أُطر التعلم التعزيزي.

Abstract

يُستخدم التعلم التعزيزي (RL) بشكل متزايد لتعزيز قدرات الاستدلال لنماذج اللغة الكبيرة (LLMs). ومع ذلك، تواجه طرق RL تحديات كبيرة في التوسع الفعّال، ويرجع ذلك أساسًا إلى صعوبة الحفاظ على استخدام مرتفع لمعجلات الذكاء الاصطناعي دون توليد بيانات قديمة وخارجة عن السياسة تؤدي إلى إضرار بخوارزميات RL الشائعة. تقدم هذه الورقة PipelineRL، وهو نهج مصمم لتحقيق توازن أفضل بين كفاءة الأجهزة وملاءمة البيانات للسياسة أثناء تدريب LLM. يستخدم PipelineRL توليد بيانات متزامن غير متزامن وتدريب النموذج، مع تميز بتحديثات الوزن أثناء التنفيذ. تسمح هذه الآلية لمحرك التوليد في LLM بتلقي أوزان النموذج المحدثة مع أقل قدر من الانقطاع أثناء توليد تسلسلات الرموز، مما يعظم استخدام المعجل وحداثة بيانات التدريب. أظهرت التجارب التي أجريت على مهام الاستدلال طويلة الشكل باستخدام 128 وحدة H100 GPU أن PipelineRL يحقق تعلمًا أسرع بحوالي 2 ضعف مقارنة بأساليب RL التقليدية مع الحفاظ على بيانات تدريب متوافقة للغاية مع السياسة. تم أيضًا إصدار تنفيذ مفتوح المصدر قابل للتوسع والوحدات لـ PipelineRL كمساهمة رئيسية.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alexandre Piché

Ehsan Kamalloo

Rafael Pardinas

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

PipelineRL: تعلم تعزيز أسرع على السياسة لتوليد تسلسل طويل

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider