Key points are not available for this paper at this time.
لقد أحدث توسيع نماذج اللغات الكبيرة ثورة في الأداء عبر مجالات متنوعة، ومع ذلك فإن النمو المستمر في حجم النموذج يطرح تحديات كبيرة للتطبيق في العالم الحقيقي. يتناول نهج مزيج الخبراء (Mixture of Experts - MoE) هذا الأمر من خلال اختيار وتفعيل مجموعة فرعية فقط من الخبراء ديناميكيًا، مما يقلل بشكل كبير من تكاليف الحوسبة مع الحفاظ على أداء عالي. ومع ذلك، يقدم MoE احتمال وجود تكرار (مثل المعلمات) وتكاليف إضافية (مثل عبء الاتصال). على الرغم من تطوير العديد من تقنيات الضغط للتخفيف من التكرار في النماذج الكثيفة، لا يزال ضغط MoE موضوعًا غير مستكشف بشكل كافٍ. نقوم أولًا بسد هذه الفجوة من خلال إطار عمل موحد متقدم لا يدمج فقط طرق الضغط السائدة بسلاسة ولكنه يساعد أيضًا في فهم ضغط MoE بشكل منهجي. يتناول هذا الإطار الضغط من منظورين: تقليص الخبراء الذي يضغط الخبراء الفرديين، والتقليم الخبروي الذي يزيل الوحدات الهيكلية. ضمن هذا الإطار، نستكشف فضاء التحسين الذي لم تستكشفه الطرق الحالية، ونقدم تقنيات تقليم خبروي عدوانية أكثر، مثل إسقاط الطبقات وإسقاط الكتل، للقضاء على التكرار على نطاق أوسع. بناءً على هذه الرؤى، نقدم وصفة شاملة لإرشاد الممارسين في ضغط MoE بفعالية. تظهر النتائج التجريبية الموسعة فعالية طرق الضغط ضمن إطارنا والوصفة المقترحة، حيث تحقق تسريعًا بمقدار 6.05 أضعاف واستخدام ذاكرة يبلغ فقط 20.0 جيجابايت مع الحفاظ على أكثر من 92% من الأداء على Mixtral-8x7B.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shwai He
D.S. Dong
Ding Liang
Building similarity graph...
Analyzing shared references across papers
Loading...
درس هي وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e66361b6db6435875f03a1 — DOI: https://doi.org/10.48550/arxiv.2406.02500
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: