June 26, 2024Open Access

बड़े भाषा मॉडल में मिक्सचर-ऑफ-एक्सपर्ट्स का गहन अध्ययन

Key Points

Key points are not available for this paper at this time.

Abstract

मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) अपनी अनूठी विशेषताओं और असाधारण प्रदर्शन के कारण बढ़ती लोकप्रियता प्राप्त कर रहा है, विशेष रूप से भाषा कार्यों के लिए। प्रत्येक टोकन के लिए सीमित संख्या में पैरामीटर सक्रिय करके, MoE आर्किटेक्चर मॉडल के आकार को बिना कम्प्यूटेशनल दक्षता गंवाए बढ़ा सकता है, जिससे प्रदर्शन और प्रशिक्षण लागत के बीच बेहतर संतुलन प्राप्त होता है। हालांकि, MoE का अंतर्निहित तंत्र अभी भी व्यापक अन्वेषण की कमी है, और इसकी मॉड्युलराइजेशन की डिग्री संदिग्ध बनी हुई है। इस पेपर में, हम MoE-आधारित बड़े भाषा मॉडलों के आंतरिक कार्यों को समझने का एक प्रारंभिक प्रयास करते हैं। विशेष रूप से, हम हालिया तीन MoE-आधारित मॉडलों की पैरामीट्रिक और व्यवहारिक विशेषताओं का व्यापक अध्ययन करते हैं और कुछ रोचक अवलोकन प्रकट करते हैं, जिनमें शामिल हैं (1) न्यूरॉन्स सूक्ष्म स्तर के विशेषज्ञों की तरह काम करते हैं। (2) MoE का राउटर आमतौर पर बड़े आउटपुट नॉर्म वाले विशेषज्ञों का चयन करता है। (3) विशेषज्ञों की विविधता की परत के साथ वृद्धि होती है, जबकि अंतिम परत अपवाद है। इन अवलोकनों के आधार पर, हम MoE के विभिन्न व्यवहार करने वालों के लिए सुझाव भी प्रदान करते हैं, जैसे कि राउटर डिजाइन और विशेषज्ञ आवंटन। आशा है कि यह कार्य MoE फ्रेमवर्क और अन्य मॉड्युलर आर्किटेक्चरों पर भविष्य के शोध को प्रकाश डालेगा। कोड इस लिंक पर उपलब्ध है https://github.com/kamanphoebe/Look-into-MoEs।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ka Man Lo

Zeyu Huang

Zihan Qiu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

बड़े भाषा मॉडल में मिक्सचर-ऑफ-एक्सपर्ट्स का गहन अध्ययन

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider