April 8, 2024Open Access

التدريب الكثيف، الاستدلال المتفرق: إعادة التفكير في تدريب نماذج اللغة المختلطة الخبراء

Key Points

Key points are not available for this paper at this time.

Abstract

يمكن لنماذج اللغة المختلطة الخبراء (MoE) تقليل تكاليف الحوسبة بمعدل 2-4 مرات مقارنة بالنماذج الكثيفة دون التضحية بالأداء، مما يجعلها أكثر كفاءة في السيناريوهات المحدودة الحوسبة. ومع ذلك، تتطلب نماذج MoE عمومًا 2-4 أضعاف المعلمات لتحقيق أداء مماثل للنموذج الكثيف، مما يؤدي إلى متطلبات ذاكرة GPU أكبر ويجعل نماذج MoE أقل كفاءة في السيناريوهات المحدودة بعمليات الإدخال/الإخراج مثل التوليد التلقائي. في هذا العمل، نقترح إطار عمل هجيني يجمع بين التدريب الكثيف والاستدلال المتفرق لنماذج MoE (DS-MoE) الذي يحقق كفاءة عالية في الحوسبة والمعلمات من خلال استخدام الحوسبة الكثيفة عبر جميع الخبراء أثناء التدريب والحوسبة المتفرقة أثناء الاستدلال. أظهرت تجاربنا في تدريب نماذج اللغة الكبيرة أن نماذج DS-MoE أكثر كفاءة من حيث المعلمات مقارنة بنماذج MoE المتفرقة القياسية ومتساوية مع النماذج الكثيفة من حيث الحجم الكلي للمعلمات والأداء مع تكلفة حسابية أقل (تفعيل 30-40% من معلمات النموذج). تظهر اختبارات الأداء باستخدام vLLM أن نموذج DS-MoE-6B يعمل أسرع حتى 1.86 مرة من نماذج كثيفة مماثلة مثل Mistral-7B، وأسرع بين 1.50 و1.71 مرة من نماذج MoE قابلة للمقارنة، مثل DeepSeekMoE-16B و Qwen1.5-MoE-A2.7B.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bowen Pan

Yikang Shen

Haokun Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

التدريب الكثيف، الاستدلال المتفرق: إعادة التفكير في تدريب نماذج اللغة المختلطة الخبراء

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider