Key points are not available for this paper at this time.
بالنسبة لنماذج مزيج الخبراء (MoE)، فإن عدم توازن حمل الخبراء سيؤدي إلى انهيار التوجيه أو زيادة العبء الحسابي. تستخدم الطرق الحالية عادة خسارة مساعدة لتشجيع توازن الحمل، ولكن الخسارة المساعدة الكبيرة ستُدخل تدرجات تداخل لا يُستهان بها في التدريب وبالتالي تضعف أداء النموذج. للتحكم في توازن الحمل دون إنتاج تدرجات غير مرغوب فيها أثناء التدريب، نقترح موازنة بدون خسارة، تتميز باستراتيجية موازنة حمل خالية من الخسارة المساعدة. على وجه التحديد، قبل قرار التوجيه لأعلى K، تقوم موازنة بدون خسارة أولاً بتطبيق انحياز خاص بكل خبير على درجات التوجيه لكل خبير. من خلال تحديث هذا الانحياز ديناميكياً وفقاً للحمل الأخير لكل خبير، يمكن لموازنة بدون خسارة الحفاظ باستمرار على توزيع متوازن لحمل الخبراء. بالإضافة إلى ذلك، حيث إن موازنة بدون خسارة لا تنتج أي تدرجات تداخل، فإنها تعزز أيضاً الحد الأعلى لأداء النموذج المستمد من تدريب MoE. نتحقق من أداء موازنة بدون خسارة على نماذج MoE تصل إلى 3 مليارات معلمات تم تدريبها على ما يصل إلى 200 مليار رمز. تُظهر النتائج التجريبية أن موازنة بدون خسارة تحقق أداءً أفضل وتوازناً أفضل في الحمل مقارنة بالاستراتيجيات التقليدية لموازنة الحمل التي تعتمد على الخسارة المساعدة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lean Wang
Huazuo Gao
Chenggang Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
درس وانغ وآخرون هذا السؤال (الأربعاء،).
www.synapsesocial.com/papers/68e5a81fb6db643587542c9a — DOI: https://doi.org/10.48550/arxiv.2408.15664