August 28, 2024Open Access

استراتيجية موازنة الحمل بدون خسارة مساعدة لنموذج مزيج الخبراء

Key Points

Key points are not available for this paper at this time.

Abstract

بالنسبة لنماذج مزيج الخبراء (MoE)، فإن عدم توازن حمل الخبراء سيؤدي إلى انهيار التوجيه أو زيادة العبء الحسابي. تستخدم الطرق الحالية عادة خسارة مساعدة لتشجيع توازن الحمل، ولكن الخسارة المساعدة الكبيرة ستُدخل تدرجات تداخل لا يُستهان بها في التدريب وبالتالي تضعف أداء النموذج. للتحكم في توازن الحمل دون إنتاج تدرجات غير مرغوب فيها أثناء التدريب، نقترح موازنة بدون خسارة، تتميز باستراتيجية موازنة حمل خالية من الخسارة المساعدة. على وجه التحديد، قبل قرار التوجيه لأعلى K، تقوم موازنة بدون خسارة أولاً بتطبيق انحياز خاص بكل خبير على درجات التوجيه لكل خبير. من خلال تحديث هذا الانحياز ديناميكياً وفقاً للحمل الأخير لكل خبير، يمكن لموازنة بدون خسارة الحفاظ باستمرار على توزيع متوازن لحمل الخبراء. بالإضافة إلى ذلك، حيث إن موازنة بدون خسارة لا تنتج أي تدرجات تداخل، فإنها تعزز أيضاً الحد الأعلى لأداء النموذج المستمد من تدريب MoE. نتحقق من أداء موازنة بدون خسارة على نماذج MoE تصل إلى 3 مليارات معلمات تم تدريبها على ما يصل إلى 200 مليار رمز. تُظهر النتائج التجريبية أن موازنة بدون خسارة تحقق أداءً أفضل وتوازناً أفضل في الحمل مقارنة بالاستراتيجيات التقليدية لموازنة الحمل التي تعتمد على الخسارة المساعدة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lean Wang

Huazuo Gao

Chenggang Zhao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

استراتيجية موازنة الحمل بدون خسارة مساعدة لنموذج مزيج الخبراء

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study