April 23, 2024Open Access

मल्टी-हेड मिक्सचर-ऑफ-एक्सपर्ट्स

Key Points

Key points are not available for this paper at this time.

Abstract

स्पार्स मिक्सचर्स ऑफ एक्सपर्ट्स (SMoE) मॉडल क्षमता को प्रशिक्षण और पूर्वानुमान लागत में महत्वपूर्ण वृद्धि के बिना बढ़ाता है, लेकिन इसके दो प्रमुख मुद्दे हैं: (1) कम विशेषज्ञ सक्रियता, जहाँ केवल कुछ विशेषज्ञ अनुकूलन के लिए सक्रिय होते हैं। (2) व्यक्तिगत टोकनों के भीतर कई अर्थपूर्ण अवधारणाओं के लिए सूक्ष्म विश्लेषणात्मक क्षमताओं की कमी। हम मल्टी-हेड मिक्सचर-ऑफ-एक्सपर्ट्स (MH-MoE) प्रस्तावित करते हैं, जो एक मल्टी-हेड तंत्र का उपयोग करता है ताकि प्रत्येक टोकन को कई उप-टोकनों में विभाजित किया जा सके। इन उप-टोकनों को विभिन्न विशेषज्ञों के एक विविध सेट को समानांतर में सौंपा जाता है और संसाधित किया जाता है, और फिर मूल टोकन स्वरूप में निर्बाध रूप से पुन: एकीकृत किया जाता है। मल्टी-हेड तंत्र मॉडल को विभिन्न विशेषज्ञों के भीतर विभिन्न प्रतिनिधित्व स्थानों से सामूहिक रूप से जानकारी पर ध्यान केंद्रित करने में सक्षम बनाता है, जबकि विशेषज्ञ सक्रियता को काफी बढ़ाता है, जिससे संदर्भ की समझ गहरी होती है और ओवरफिटिंग कम होती है। इसके अलावा, हमारा MH-MoE लागू करना सीधे-सादे है और अन्य SMoE अनुकूलन विधियों से स्वतंत्र है, जिससे इसे बेहतर प्रदर्शन के लिए अन्य SMoE मॉडलों के साथ एकीकृत करना आसान हो जाता है। अंग्रेज़ी-केंद्रित भाषा मॉडलिंग, बहुभाषी भाषा मॉडलिंग और मास्क्ड मल्टी-मोडालिटी मॉडलिंग कार्यों पर व्यापक वैधतापूर्ण परिणाम MH-MoE की प्रभावशीलता दर्शाते हैं।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xun Wu

Shaohan Huang

Wenhui Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

मल्टी-हेड मिक्सचर-ऑफ-एक्सपर्ट्स

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider