يُستخدم التعلم التعزيزي (RL) بشكل متزايد لتعزيز قدرات الاستدلال لنماذج اللغة الكبيرة (LLMs). ومع ذلك، تواجه طرق RL تحديات كبيرة في التوسع الفعّال، ويرجع ذلك أساسًا إلى صعوبة الحفاظ على استخدام مرتفع لمعجلات الذكاء الاصطناعي دون توليد بيانات قديمة وخارجة عن السياسة تؤدي إلى إضرار بخوارزميات RL الشائعة. تقدم هذه الورقة PipelineRL، وهو نهج مصمم لتحقيق توازن أفضل بين كفاءة الأجهزة وملاءمة البيانات للسياسة أثناء تدريب LLM. يستخدم PipelineRL توليد بيانات متزامن غير متزامن وتدريب النموذج، مع تميز بتحديثات الوزن أثناء التنفيذ. تسمح هذه الآلية لمحرك التوليد في LLM بتلقي أوزان النموذج المحدثة مع أقل قدر من الانقطاع أثناء توليد تسلسلات الرموز، مما يعظم استخدام المعجل وحداثة بيانات التدريب. أظهرت التجارب التي أجريت على مهام الاستدلال طويلة الشكل باستخدام 128 وحدة H100 GPU أن PipelineRL يحقق تعلمًا أسرع بحوالي 2 ضعف مقارنة بأساليب RL التقليدية مع الحفاظ على بيانات تدريب متوافقة للغاية مع السياسة. تم أيضًا إصدار تنفيذ مفتوح المصدر قابل للتوسع والوحدات لـ PipelineRL كمساهمة رئيسية.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alexandre Piché
Ehsan Kamalloo
Rafael Pardinas
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Piché وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68f6196ee0bbbc94fac362fd — DOI: https://doi.org/10.48550/arxiv.2509.19128
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: