تستخدم الأعمال السابقة في التعلم المعزز متعدد الأهداف عادةً التحييد الخطي للمكافآت بأوزان ثابتة، والتي ثبت عدم قدرتها على التقاط الجبهات باريتو غير المحدبة وبالتالي تُنتج نتائج دون المثلى. تصبح هذه المحدودية حرجة بشكل خاص في محاذاة التفضيلات عبر الإنترنت لنماذج اللغة الكبيرة. هنا، تُنتج المسارات العشوائية التي تولدها سياسات محددة المعلمات تحويلات غير خطية وغير محدبة للغاية من المعلمات إلى الأهداف لا يمكن لأي نظام وزن ثابت إيجاد التوازن الأمثل فيها. نحن نعالج هذا القيد من خلال تقديم وزن مكافأة ديناميكي يتكيف مع أوزان المكافآت أثناء عملية التعلم المعزز على الإنترنت. بخلاف النهج القائمة على التداخل ذو الوزن الثابت، يوازن نظام الوزن الديناميكي بشكل مستمر ويعطي أولوية للأهداف أثناء التدريب، مما يسهل الاستكشاف الفعال لجبهات باريتو في فضاء الأهداف. نقدم نهجين يتسمان بازدياد التعقيد والقابلية للتعميم: (1) تكييف الوزن باستخدام مقياس الحجم الفائق و(2) تحسين الوزن باستخدام التدرج، مما يوفر مجموعة أدوات متعددة الاستخدامات للمحاذاة متعددة الأهداف على الإنترنت. تظهر تجاربنا المكثفة توافقها مع خوارزميات التعلم المعزز الشائعة الاستخدام (بما في ذلك GRPO، REINFORCE، و RLOO)، وفعاليتها عبر عدة مجموعات بيانات للحساب الرياضي، وتطبيقها على عائلات نماذج مختلفة، محققة حلول متفوقة في باريتو بعدد خطوات تدريب أقل مقارنة بأساسات التحييد الخطي ذو الوزن الثابت.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yining Lu
Zilong Wang
Shiyang Li
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Lu وآخرون (Sun,) هذا السؤال.
www.synapsesocial.com/papers/68ecfebf950606aabec094b0 — DOI: https://doi.org/10.48550/arxiv.2509.11452
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: