Key points are not available for this paper at this time.
طبقة مزيج الخبراء (MoE)، وهي نموذج يتم تنشيطه بشكل متناثر وتتحكم فيه وحدة التوجيه، حققت نجاحًا كبيرًا في التعلم العميق. ومع ذلك، يظل فهم هذا الهيكل غامضًا. في هذا البحث، ندرس رسميًا كيف تحسن طبقة MoE أداء تعلم الشبكات العصبية ولماذا لا ينهار نموذج المزيج إلى نموذج واحد. تشير نتائجنا التجريبية إلى أن بنية التجمعات للمشكلة الأساسية وعدم خطية الخبير هما العاملان الرئيسيان لنجاح MoE. لفهم ذلك أكثر، ندرس مشكلة تصنيف تحديّة ذات بنى تجمع داخلية؛ حيث يصعب تعلمها باستخدام خبير واحد فقط. ولكن مع طبقة MoE، باختيار الخبراء كنماذج شبكة عصبية التفافية غير خطية ذات طبقتين (CNNs)، نُظهر أن المشكلة يمكن تعلمها بنجاح. علاوة على ذلك، تُظهر نظريتنا أن وحدة التوجيه يمكنها تعلم مميزات مركز التجمع، مما يساعد في تقسيم مشكلة الإدخال المعقدة إلى مشكلات تصنيف خطية أبسط يمكن للخبراء الفرديين التعامل معها. وعلى حد علمنا، هذه هي النتيجة الأولى التي تتجه نحو فهم رسمي لآلية طبقة MoE في التعلم العميق.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zixiang Chen
Yihe Deng
Yue Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس تشين وآخرون (الخميس) هذا السؤال.
www.synapsesocial.com/papers/6a08e3f627ceb0c2a2d611f6 — DOI: https://doi.org/10.48550/arxiv.2208.02813