April 3, 2024Open Access

نحو نماذج لغات كبيرة من نوع مزيج الخبراء تحقق الأمثلية في الاستدلال

Key Points

Key points are not available for this paper at this time.

Abstract

أظهرت نماذج اللغة الكبيرة المستندة إلى مزيج الخبراء (MoE)، مثل Mixtral وDeepSeek-MoE الحديثة، وعدًا كبيرًا في تكبير حجم النموذج دون المعاناة من النمو التربيعي لتكلفة التدريب في المحولات المكتظة. مثل النماذج المكتظة، يتطلب تدريب نماذج MoE الإجابة على نفس السؤال: بالاعتماد على ميزانية التدريب، ما هو التخصيص الأمثل لحجم النموذج وعدد الرموز؟ ندرس قانون التوسع لنماذج MoE الكبيرة بالنسبة للعلاقات بين أداء النموذج، وحجم النموذج، وحجم مجموعة البيانات، ودرجة الخبراء. متماشين مع أبحاث سابقة درست MoE في سياقات مختلفة، نلاحظ العائد المتناقص مع زيادة عدد الخبراء، لكن هذا يبدو وكأنه يشير إلى ضرورة زيادة عدد الخبراء حتى التشبع، حيث ستبقى تكلفة التدريب ثابتة، وهذا يمثل مشكلة أثناء وقت الاستدلال. نقترح تعديل قانون التوسع لـ MoE بإدخال كفاءة الاستدلال كمقياس آخر بجانب خسارة التحقق. نجد أن نماذج MoE التي تحتوي على عدد قليل من الخبراء (4/8) هي الحل الأكثر كفاءة في الخدمة مع نفس الأداء، لكنها تكلف أكثر في التدريب بمقدار 2.5-3.5 مرة. من ناحية أخرى، تدريب MoE بـ (16/32) خبيرًا، أصغر بكثير (70-85%) من الحل الأمثل للخسارة، ولكن مع مجموعة بيانات تدريب أكبر، هو إعداد واعد ضمن ميزانية تدريب محددة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Longfei Yun

Yonghao Zhuang

Yao Fu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

نحو نماذج لغات كبيرة من نوع مزيج الخبراء تحقق الأمثلية في الاستدلال

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider