June 4, 2024Open Access

تبسيط ضغط نموذج مزيج الخبراء من خلال إطار عمل موحد

Key Points

Key points are not available for this paper at this time.

Abstract

لقد أحدث توسيع نماذج اللغات الكبيرة ثورة في الأداء عبر مجالات متنوعة، ومع ذلك فإن النمو المستمر في حجم النموذج يطرح تحديات كبيرة للتطبيق في العالم الحقيقي. يتناول نهج مزيج الخبراء (Mixture of Experts - MoE) هذا الأمر من خلال اختيار وتفعيل مجموعة فرعية فقط من الخبراء ديناميكيًا، مما يقلل بشكل كبير من تكاليف الحوسبة مع الحفاظ على أداء عالي. ومع ذلك، يقدم MoE احتمال وجود تكرار (مثل المعلمات) وتكاليف إضافية (مثل عبء الاتصال). على الرغم من تطوير العديد من تقنيات الضغط للتخفيف من التكرار في النماذج الكثيفة، لا يزال ضغط MoE موضوعًا غير مستكشف بشكل كافٍ. نقوم أولًا بسد هذه الفجوة من خلال إطار عمل موحد متقدم لا يدمج فقط طرق الضغط السائدة بسلاسة ولكنه يساعد أيضًا في فهم ضغط MoE بشكل منهجي. يتناول هذا الإطار الضغط من منظورين: تقليص الخبراء الذي يضغط الخبراء الفرديين، والتقليم الخبروي الذي يزيل الوحدات الهيكلية. ضمن هذا الإطار، نستكشف فضاء التحسين الذي لم تستكشفه الطرق الحالية، ونقدم تقنيات تقليم خبروي عدوانية أكثر، مثل إسقاط الطبقات وإسقاط الكتل، للقضاء على التكرار على نطاق أوسع. بناءً على هذه الرؤى، نقدم وصفة شاملة لإرشاد الممارسين في ضغط MoE بفعالية. تظهر النتائج التجريبية الموسعة فعالية طرق الضغط ضمن إطارنا والوصفة المقترحة، حيث تحقق تسريعًا بمقدار 6.05 أضعاف واستخدام ذاكرة يبلغ فقط 20.0 جيجابايت مع الحفاظ على أكثر من 92% من الأداء على Mixtral-8x7B.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shwai He

D.S. Dong

Ding Liang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

تبسيط ضغط نموذج مزيج الخبراء من خلال إطار عمل موحد

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider