برز مزيج الخبراء المتفرق (SMoE) كعنصر رئيسي لتحقيق قابلية التوسع غير المسبوقة في التعلم العميق. من خلال تفعيل مجموعة فرعية صغيرة فقط من المعلمات لكل عينة، يحقق SMoE زيادة أسية في عدد المعلمات مع الحفاظ على عبء حسابي ثابت. ومع ذلك، فإن نماذج SMoE عرضة لتقلبات التوجيه — تغييرات في توجيه إدخال معين إلى خبيره المستهدف — في المرحلة المتأخرة من تدريب النموذج، مما يؤدي إلى عدم قوة النموذج. في هذا العمل، نكشف عن قيود SMoE من منظور نموذج الرسوم البيانية الاحتمالية (PGM). من خلال هذا الإطار، نسلط الضوء على الاستقلالية في اختيار الخبراء للرموز، التي تعرض النموذج لتقلبات التوجيه وعدم القوة. لتخفيف هذه الاستقلالية، نقترح مزيج الخبراء الواعي بالتشابه (S)MoE، الذي يأخذ في الاعتبار التفاعلات بين الرموز أثناء اختيار الخبراء. ثم نستنتج نموذج PGM جديد يكمن وراء كتلة (S)MoE-Attention، متجاوزين طبقة (S)MoE واحدة فقط. بالاستفادة من أوجه التشابه بين الرموز التي تلتقطها مصفوفة الانتباه، نقترح (S)MoE الواعي بالانتباه المبتكر، الذي يستخدم مصفوفة الانتباه لتوجيه الرموز إلى الخبراء المناسبين في (S)MoE. نثبت نظريًا أن التوجيه الواعي بالتشابه/الانتباه يساعد في تقليل إنتروبيا اختيار الخبير، مما يؤدي إلى آليات توجيه رموز أكثر استقرارًا. نثبت تجريبيًا نماذجنا على مهام ومجالات مختلفة، مظهرين تحسينات كبيرة في تقليل تقلبات التوجيه، وتعزيز الدقة، وزيادة قوة النموذج مقارنةً بالنموذج الأساسي MoE-Transformer مع توجيه الرموز عبر بوابة softmax.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tam Thanh Nguyen
Ngoc Tran
Khai Nguyen
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Nguyen وآخرون (Thu،) هذا السؤال.
www.synapsesocial.com/papers/68e03501f0e39f13e7fa3894 — DOI: https://doi.org/10.48550/arxiv.2505.00792
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: