What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

تحسين التوجيه في مزيج الخبراء المتفرق باستخدام رسم بياني للرموز

Key Points

يمكن أن تؤدي تقلبات التوجيه في مزيج الخبراء المتفرق إلى عدم قوة النموذج، مما يعقد التنبؤات الدقيقة.
يكشف استخدام نموذج الرسوم البيانية الاحتمالية عن استقلالية الرموز في اختيار الخبراء، مما يجعل النماذج أكثر عرضة للأخطاء.
يقلل التوجيه الواعي بالتشابه والواعي بالانتباه بشكل كبير من إنتروبيا اختيار الخبير، مما يثبت آليات توجيه الرموز.
تُظهر التحققات التجريبية على مهام متعددة أن نماذجنا تتفوق على MoE-Transformer الأساسي من حيث الدقة والقوة.

Abstract

برز مزيج الخبراء المتفرق (SMoE) كعنصر رئيسي لتحقيق قابلية التوسع غير المسبوقة في التعلم العميق. من خلال تفعيل مجموعة فرعية صغيرة فقط من المعلمات لكل عينة، يحقق SMoE زيادة أسية في عدد المعلمات مع الحفاظ على عبء حسابي ثابت. ومع ذلك، فإن نماذج SMoE عرضة لتقلبات التوجيه — تغييرات في توجيه إدخال معين إلى خبيره المستهدف — في المرحلة المتأخرة من تدريب النموذج، مما يؤدي إلى عدم قوة النموذج. في هذا العمل، نكشف عن قيود SMoE من منظور نموذج الرسوم البيانية الاحتمالية (PGM). من خلال هذا الإطار، نسلط الضوء على الاستقلالية في اختيار الخبراء للرموز، التي تعرض النموذج لتقلبات التوجيه وعدم القوة. لتخفيف هذه الاستقلالية، نقترح مزيج الخبراء الواعي بالتشابه (S)MoE، الذي يأخذ في الاعتبار التفاعلات بين الرموز أثناء اختيار الخبراء. ثم نستنتج نموذج PGM جديد يكمن وراء كتلة (S)MoE-Attention، متجاوزين طبقة (S)MoE واحدة فقط. بالاستفادة من أوجه التشابه بين الرموز التي تلتقطها مصفوفة الانتباه، نقترح (S)MoE الواعي بالانتباه المبتكر، الذي يستخدم مصفوفة الانتباه لتوجيه الرموز إلى الخبراء المناسبين في (S)MoE. نثبت نظريًا أن التوجيه الواعي بالتشابه/الانتباه يساعد في تقليل إنتروبيا اختيار الخبير، مما يؤدي إلى آليات توجيه رموز أكثر استقرارًا. نثبت تجريبيًا نماذجنا على مهام ومجالات مختلفة، مظهرين تحسينات كبيرة في تقليل تقلبات التوجيه، وتعزيز الدقة، وزيادة قوة النموذج مقارنةً بالنموذج الأساسي MoE-Transformer مع توجيه الرموز عبر بوابة softmax.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tam Thanh Nguyen

Ngoc Tran

Khai Nguyen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

تحسين التوجيه في مزيج الخبراء المتفرق باستخدام رسم بياني للرموز

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider