August 20, 2024Open Access

HMoE: भाषा मॉडलिंग के लिए विशेषज्ञों का विषम मिश्रण

Key Points

Key points are not available for this paper at this time.

Abstract

मिश्रण ऑफ एक्सपर्ट्स (MoE) मॉडल के कुछ पैरामीटर चुनिंदा रूप से सक्रिय करके अद्भुत प्रदर्शन और संगणकीय दक्षता प्रदान करता है। पारंपरिक रूप से, MoE मॉडल समान क्षमता वाले समरूप विशेषज्ञों का उपयोग करते हैं। हालांकि, इनपुट डेटा में विभिन्न जटिलताएं विशेषज्ञों से विविध क्षमताओं की आवश्यकता होती है, जबकि समरूप MoE प्रभावी विशेषज्ञ विशेषीकरण और पैरामीटर उपयोग को बाधित करता है। इस अध्ययन में, हम एक नवीन विषम मिश्रण विशेषज्ञ मॉडल (HMoE) प्रस्तावित करते हैं, जिसमें विशेषज्ञ आकार में भिन्न होते हैं और इसलिए उनकी क्षमताएँ भी विविध हैं। यह विषमता विशेषज्ञों को विभिन्न टोकन जटिलताओं को अधिक प्रभावी ढंग से संभालने की अनुमति देती है। विशेषज्ञ सक्रियण में असंतुलन को संबोधित करने के लिए, हम एक नया प्रशिक्षण उद्देश्य प्रस्तुत करते हैं जो छोटे विशेषज्ञों की बार-बार सक्रियता को प्रोत्साहित करता है, जिससे संगणकीय दक्षता और पैरामीटर उपयोग बढ़ता है। व्यापक प्रयोग दिखाते हैं कि HMoE कम सक्रिय पैरामीटरों के साथ कम लॉस प्राप्त करता है और विभिन्न प्री-ट्रेनिंग मूल्यांकन बेंचमार्कों पर पारंपरिक समरूप MoE मॉडलों से बेहतर प्रदर्शन करता है। कोड स्वीकृति के बाद जारी किए जाएंगे।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

An Wang

Xingwu Sun

Ruobing Xie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HMoE: भाषा मॉडलिंग के लिए विशेषज्ञों का विषम मिश्रण

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider