Key points are not available for this paper at this time.
من خلال زيادة معلمات النموذج ولكن تفعيلها بشكل متناثر أثناء أداء المهمة، يحسن استخدام هندسة خليط الخبراء (MoE) أداء النماذج اللغوية الكبيرة (LLMs) بشكل ملحوظ دون زيادة تكلفة الاستدلال. ومع ذلك، استهلاك الذاكرة الناتج عن العدد المتزايد من الخبراء يمثل تحديًا لنشر هذه النماذج في العديد من البيئات الواقعية. تكشف دراستنا التجريبية أن بعض الخبراء يشفرون معرفة زائدة أثناء التدريب المسبق. لذا، نقترح طريقة لتجميع وتقليص الخبراء المتشابهين لتحسين كفاءة معلمات النموذج. نتحقق من فعالية طريقتنا من خلال تقليص نموذجين من طرازات MoE الحديثة، Mixtral-8x7B وMixtral-8x22B. تظهر التقييمات أن طريقتنا تتفوق على طرق تقليم النماذج الأخرى في مجموعة من مهام اللغة الطبيعية. لتسهيل الأبحاث المستقبلية، سنصدر كودنا ونماذج MoE المجزأة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zeliang Zhang
Xiaodong Liu
Hao Cheng
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Zhang وآخرون (Fri,) هذا السؤال.
www.synapsesocial.com/papers/68e6087cb6db64358759c5f8 — DOI: https://doi.org/10.48550/arxiv.2407.09590
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: