تقرير فني / مسودة CARL-MoE. تزيد نماذج خلط الخبراء المتفرقة (MoE) من سعة المعلمات دون زيادة حسابية متناسبة لكل رمز من خلال تفعيل مجموعة فرعية فقط من الخبراء لكل رمز Shazeer et al., 2017; Fedus et al., 2022; Du et al., 2022. في التطبيق العملي، غالبًا ما تكون كفاءة التدريب محدودة بثلاثة مشاكل مترابطة: التوجيه غير المعتمد على الطوبولوجيا، استخدام الخبراء غير المتساوي، والتواصل المكلف بين الخبراء المتوازين Lepikhin et al., 2021; Rajbhandari et al., 2022; Gale et al., 2023. غالبًا ما حسّن العمل السابق التوجيه، الموازنة، أو التنفيذ الموزع بشكل منفصل. قد يؤدي هذا الفصل إلى عدم تطابق بين ألفة الرمز والخبير والتكلفة الفعلية لإرسال الرموز عبر مجموعة غير متجانسة. نقدم إطارًا موحدًا لتدريب MoE بكفاءة يجمع بين: (i) التوجيه الواعي بالاتصال، الذي يضبط استخدامات الموجه باستخدام تكلفة الإرسال المقدرة؛ (ii) موازنة تحميل ثنائية المستوى تكيفية، التي تنظّم تحميل كل من المستوى الخبروي ومستوى المجموعة وتضبط قوة الموازنة بناءً على الانحراف الملحوظ؛ و(iii) التوازي الخبروي الواعي بالاتصال، بما في ذلك التوجيه الهرمي ذو الانحياز المحلي، بداية دافئة قصيرة تعتمد على Sinkhorn، وتحديث دوري لوضع الخبراء باستخدام إحصائيات التوجيه المتراكمة. المساهمة هي تكاملية بشكل أساسي وليست ادعاء باختراع آلية واحدة. نحدد الطريقة بدقة، ونحلل مقايضات الحوسبة، ونقدم تجارب محاكاة بقيم محسوبة دقيقة تحت نموذج اتصال شفاف. عبر الإعدادات المدروسة، تقلل الطريقة المدمجة من تكلفة الاتصال المحاكاة وانحراف الحمل مقارنةً بالأساسيات غير المعتمدة على الطوبولوجيا مع الحفاظ على انتقائية التوجيه. تدعم هذه النتائج الفرضية الأوسع في نظم تعلم الآلة بأن توجيه MoE يجب تصميمه مع طوبولوجيا العنقود بدلاً من تحسينه بشكل مستقل. المعرف الرقمي الأرشيفي OSF الحالي: 10.17605/OSF.IO/3MF56؛ صفحة الأرشيف OSF الحالية: https://osf.io/3mf56/. تشمل الملفات التقرير الفني PDF وحزمة المصدر LaTeX متى توفرت.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haopeng Jin
Beijing University of Posts and Telecommunications
Building similarity graph...
Analyzing shared references across papers
Loading...
درس هاوبينغ جين (الاثنين) هذا السؤال.
www.synapsesocial.com/papers/69ec5aa788ba6daa22dac24a — DOI: https://doi.org/10.5281/zenodo.19712472
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: