August 4, 2022Open Access

نحو فهم مزيج الخبراء في التعلم العميق

Key Points

Key points are not available for this paper at this time.

Abstract

طبقة مزيج الخبراء (MoE)، وهي نموذج يتم تنشيطه بشكل متناثر وتتحكم فيه وحدة التوجيه، حققت نجاحًا كبيرًا في التعلم العميق. ومع ذلك، يظل فهم هذا الهيكل غامضًا. في هذا البحث، ندرس رسميًا كيف تحسن طبقة MoE أداء تعلم الشبكات العصبية ولماذا لا ينهار نموذج المزيج إلى نموذج واحد. تشير نتائجنا التجريبية إلى أن بنية التجمعات للمشكلة الأساسية وعدم خطية الخبير هما العاملان الرئيسيان لنجاح MoE. لفهم ذلك أكثر، ندرس مشكلة تصنيف تحديّة ذات بنى تجمع داخلية؛ حيث يصعب تعلمها باستخدام خبير واحد فقط. ولكن مع طبقة MoE، باختيار الخبراء كنماذج شبكة عصبية التفافية غير خطية ذات طبقتين (CNNs)، نُظهر أن المشكلة يمكن تعلمها بنجاح. علاوة على ذلك، تُظهر نظريتنا أن وحدة التوجيه يمكنها تعلم مميزات مركز التجمع، مما يساعد في تقسيم مشكلة الإدخال المعقدة إلى مشكلات تصنيف خطية أبسط يمكن للخبراء الفرديين التعامل معها. وعلى حد علمنا، هذه هي النتيجة الأولى التي تتجه نحو فهم رسمي لآلية طبقة MoE في التعلم العميق.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zixiang Chen

Yihe Deng

Yue Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

نحو فهم مزيج الخبراء في التعلم العميق

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study