What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

تعلّم تحسين المحاذاة متعددة الأهداف من خلال وزن المكافآت الديناميكي

Key Points

يعزز وزن المكافأة الديناميكي بشكل فعال محاذاة التفضيلات عبر الإنترنت، متغلباً على قيود جبهة باريتو غير المحدبة.
حققت طرقنا حلولًا مهيمنة على جبهة باريتو مع عدد أقل من خطوات التدريب مقارنة بأساليب التحييد الخطي ذات الوزن الثابت.
قدمنا تكييف الوزن الموجه بالحجم الفائق وتحسين الوزن المعتمد على التدرج لتعزيز القابلية للتعميم.
تُظهر التجارب التوافق مع خوارزميات شائعة مثل GRPO وREINFORCE وRLOO، مؤكدة تنوع التطبيق.

Abstract

تستخدم الأعمال السابقة في التعلم المعزز متعدد الأهداف عادةً التحييد الخطي للمكافآت بأوزان ثابتة، والتي ثبت عدم قدرتها على التقاط الجبهات باريتو غير المحدبة وبالتالي تُنتج نتائج دون المثلى. تصبح هذه المحدودية حرجة بشكل خاص في محاذاة التفضيلات عبر الإنترنت لنماذج اللغة الكبيرة. هنا، تُنتج المسارات العشوائية التي تولدها سياسات محددة المعلمات تحويلات غير خطية وغير محدبة للغاية من المعلمات إلى الأهداف لا يمكن لأي نظام وزن ثابت إيجاد التوازن الأمثل فيها. نحن نعالج هذا القيد من خلال تقديم وزن مكافأة ديناميكي يتكيف مع أوزان المكافآت أثناء عملية التعلم المعزز على الإنترنت. بخلاف النهج القائمة على التداخل ذو الوزن الثابت، يوازن نظام الوزن الديناميكي بشكل مستمر ويعطي أولوية للأهداف أثناء التدريب، مما يسهل الاستكشاف الفعال لجبهات باريتو في فضاء الأهداف. نقدم نهجين يتسمان بازدياد التعقيد والقابلية للتعميم: (1) تكييف الوزن باستخدام مقياس الحجم الفائق و(2) تحسين الوزن باستخدام التدرج، مما يوفر مجموعة أدوات متعددة الاستخدامات للمحاذاة متعددة الأهداف على الإنترنت. تظهر تجاربنا المكثفة توافقها مع خوارزميات التعلم المعزز الشائعة الاستخدام (بما في ذلك GRPO، REINFORCE، و RLOO)، وفعاليتها عبر عدة مجموعات بيانات للحساب الرياضي، وتطبيقها على عائلات نماذج مختلفة، محققة حلول متفوقة في باريتو بعدد خطوات تدريب أقل مقارنة بأساسات التحييد الخطي ذو الوزن الثابت.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yining Lu

Zilong Wang

Shiyang Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

تعلّم تحسين المحاذاة متعددة الأهداف من خلال وزن المكافآت الديناميكي

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider