July 12, 2024Open Access

تنويع المعرفة الخبيرة للتقليم غير المعتمد على المهمة في خليط الخبراء المتناثر

Key Points

Key points are not available for this paper at this time.

Abstract

من خلال زيادة معلمات النموذج ولكن تفعيلها بشكل متناثر أثناء أداء المهمة، يحسن استخدام هندسة خليط الخبراء (MoE) أداء النماذج اللغوية الكبيرة (LLMs) بشكل ملحوظ دون زيادة تكلفة الاستدلال. ومع ذلك، استهلاك الذاكرة الناتج عن العدد المتزايد من الخبراء يمثل تحديًا لنشر هذه النماذج في العديد من البيئات الواقعية. تكشف دراستنا التجريبية أن بعض الخبراء يشفرون معرفة زائدة أثناء التدريب المسبق. لذا، نقترح طريقة لتجميع وتقليص الخبراء المتشابهين لتحسين كفاءة معلمات النموذج. نتحقق من فعالية طريقتنا من خلال تقليص نموذجين من طرازات MoE الحديثة، Mixtral-8x7B وMixtral-8x22B. تظهر التقييمات أن طريقتنا تتفوق على طرق تقليم النماذج الأخرى في مجموعة من مهام اللغة الطبيعية. لتسهيل الأبحاث المستقبلية، سنصدر كودنا ونماذج MoE المجزأة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zeliang Zhang

Xiaodong Liu

Hao Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

تنويع المعرفة الخبيرة للتقليم غير المعتمد على المهمة في خليط الخبراء المتناثر

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider