Key points are not available for this paper at this time.
मिश्रण ऑफ एक्सपर्ट्स (MoE) मॉडल के कुछ पैरामीटर चुनिंदा रूप से सक्रिय करके अद्भुत प्रदर्शन और संगणकीय दक्षता प्रदान करता है। पारंपरिक रूप से, MoE मॉडल समान क्षमता वाले समरूप विशेषज्ञों का उपयोग करते हैं। हालांकि, इनपुट डेटा में विभिन्न जटिलताएं विशेषज्ञों से विविध क्षमताओं की आवश्यकता होती है, जबकि समरूप MoE प्रभावी विशेषज्ञ विशेषीकरण और पैरामीटर उपयोग को बाधित करता है। इस अध्ययन में, हम एक नवीन विषम मिश्रण विशेषज्ञ मॉडल (HMoE) प्रस्तावित करते हैं, जिसमें विशेषज्ञ आकार में भिन्न होते हैं और इसलिए उनकी क्षमताएँ भी विविध हैं। यह विषमता विशेषज्ञों को विभिन्न टोकन जटिलताओं को अधिक प्रभावी ढंग से संभालने की अनुमति देती है। विशेषज्ञ सक्रियण में असंतुलन को संबोधित करने के लिए, हम एक नया प्रशिक्षण उद्देश्य प्रस्तुत करते हैं जो छोटे विशेषज्ञों की बार-बार सक्रियता को प्रोत्साहित करता है, जिससे संगणकीय दक्षता और पैरामीटर उपयोग बढ़ता है। व्यापक प्रयोग दिखाते हैं कि HMoE कम सक्रिय पैरामीटरों के साथ कम लॉस प्राप्त करता है और विभिन्न प्री-ट्रेनिंग मूल्यांकन बेंचमार्कों पर पारंपरिक समरूप MoE मॉडलों से बेहतर प्रदर्शन करता है। कोड स्वीकृति के बाद जारी किए जाएंगे।
Building similarity graph...
Analyzing shared references across papers
Loading...
An Wang
Xingwu Sun
Ruobing Xie
Building similarity graph...
Analyzing shared references across papers
Loading...
वांग एट अल. (मंगलवार) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e5b9a9b6db643587551976 — DOI: https://doi.org/10.48550/arxiv.2408.10681
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: