Key points are not available for this paper at this time.
أظهرت نماذج اللغة الكبيرة المستندة إلى مزيج الخبراء (MoE)، مثل Mixtral وDeepSeek-MoE الحديثة، وعدًا كبيرًا في تكبير حجم النموذج دون المعاناة من النمو التربيعي لتكلفة التدريب في المحولات المكتظة. مثل النماذج المكتظة، يتطلب تدريب نماذج MoE الإجابة على نفس السؤال: بالاعتماد على ميزانية التدريب، ما هو التخصيص الأمثل لحجم النموذج وعدد الرموز؟ ندرس قانون التوسع لنماذج MoE الكبيرة بالنسبة للعلاقات بين أداء النموذج، وحجم النموذج، وحجم مجموعة البيانات، ودرجة الخبراء. متماشين مع أبحاث سابقة درست MoE في سياقات مختلفة، نلاحظ العائد المتناقص مع زيادة عدد الخبراء، لكن هذا يبدو وكأنه يشير إلى ضرورة زيادة عدد الخبراء حتى التشبع، حيث ستبقى تكلفة التدريب ثابتة، وهذا يمثل مشكلة أثناء وقت الاستدلال. نقترح تعديل قانون التوسع لـ MoE بإدخال كفاءة الاستدلال كمقياس آخر بجانب خسارة التحقق. نجد أن نماذج MoE التي تحتوي على عدد قليل من الخبراء (4/8) هي الحل الأكثر كفاءة في الخدمة مع نفس الأداء، لكنها تكلف أكثر في التدريب بمقدار 2.5-3.5 مرة. من ناحية أخرى، تدريب MoE بـ (16/32) خبيرًا، أصغر بكثير (70-85%) من الحل الأمثل للخسارة، ولكن مع مجموعة بيانات تدريب أكبر، هو إعداد واعد ضمن ميزانية تدريب محددة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Longfei Yun
Yonghao Zhuang
Yao Fu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Yun وآخرون (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68e70a05b6db643587683d03 — DOI: https://doi.org/10.48550/arxiv.2404.02852
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: