Key points are not available for this paper at this time.
स्पार्स मिक्सचर्स ऑफ एक्सपर्ट्स (SMoE) मॉडल क्षमता को प्रशिक्षण और पूर्वानुमान लागत में महत्वपूर्ण वृद्धि के बिना बढ़ाता है, लेकिन इसके दो प्रमुख मुद्दे हैं: (1) कम विशेषज्ञ सक्रियता, जहाँ केवल कुछ विशेषज्ञ अनुकूलन के लिए सक्रिय होते हैं। (2) व्यक्तिगत टोकनों के भीतर कई अर्थपूर्ण अवधारणाओं के लिए सूक्ष्म विश्लेषणात्मक क्षमताओं की कमी। हम मल्टी-हेड मिक्सचर-ऑफ-एक्सपर्ट्स (MH-MoE) प्रस्तावित करते हैं, जो एक मल्टी-हेड तंत्र का उपयोग करता है ताकि प्रत्येक टोकन को कई उप-टोकनों में विभाजित किया जा सके। इन उप-टोकनों को विभिन्न विशेषज्ञों के एक विविध सेट को समानांतर में सौंपा जाता है और संसाधित किया जाता है, और फिर मूल टोकन स्वरूप में निर्बाध रूप से पुन: एकीकृत किया जाता है। मल्टी-हेड तंत्र मॉडल को विभिन्न विशेषज्ञों के भीतर विभिन्न प्रतिनिधित्व स्थानों से सामूहिक रूप से जानकारी पर ध्यान केंद्रित करने में सक्षम बनाता है, जबकि विशेषज्ञ सक्रियता को काफी बढ़ाता है, जिससे संदर्भ की समझ गहरी होती है और ओवरफिटिंग कम होती है। इसके अलावा, हमारा MH-MoE लागू करना सीधे-सादे है और अन्य SMoE अनुकूलन विधियों से स्वतंत्र है, जिससे इसे बेहतर प्रदर्शन के लिए अन्य SMoE मॉडलों के साथ एकीकृत करना आसान हो जाता है। अंग्रेज़ी-केंद्रित भाषा मॉडलिंग, बहुभाषी भाषा मॉडलिंग और मास्क्ड मल्टी-मोडालिटी मॉडलिंग कार्यों पर व्यापक वैधतापूर्ण परिणाम MH-MoE की प्रभावशीलता दर्शाते हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Xun Wu
Shaohan Huang
Wenhui Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Tue,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e6df92b6db64358765af83 — DOI: https://doi.org/10.48550/arxiv.2404.15045
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: