Key points are not available for this paper at this time.
मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) अपनी अनूठी विशेषताओं और असाधारण प्रदर्शन के कारण बढ़ती लोकप्रियता प्राप्त कर रहा है, विशेष रूप से भाषा कार्यों के लिए। प्रत्येक टोकन के लिए सीमित संख्या में पैरामीटर सक्रिय करके, MoE आर्किटेक्चर मॉडल के आकार को बिना कम्प्यूटेशनल दक्षता गंवाए बढ़ा सकता है, जिससे प्रदर्शन और प्रशिक्षण लागत के बीच बेहतर संतुलन प्राप्त होता है। हालांकि, MoE का अंतर्निहित तंत्र अभी भी व्यापक अन्वेषण की कमी है, और इसकी मॉड्युलराइजेशन की डिग्री संदिग्ध बनी हुई है। इस पेपर में, हम MoE-आधारित बड़े भाषा मॉडलों के आंतरिक कार्यों को समझने का एक प्रारंभिक प्रयास करते हैं। विशेष रूप से, हम हालिया तीन MoE-आधारित मॉडलों की पैरामीट्रिक और व्यवहारिक विशेषताओं का व्यापक अध्ययन करते हैं और कुछ रोचक अवलोकन प्रकट करते हैं, जिनमें शामिल हैं (1) न्यूरॉन्स सूक्ष्म स्तर के विशेषज्ञों की तरह काम करते हैं। (2) MoE का राउटर आमतौर पर बड़े आउटपुट नॉर्म वाले विशेषज्ञों का चयन करता है। (3) विशेषज्ञों की विविधता की परत के साथ वृद्धि होती है, जबकि अंतिम परत अपवाद है। इन अवलोकनों के आधार पर, हम MoE के विभिन्न व्यवहार करने वालों के लिए सुझाव भी प्रदान करते हैं, जैसे कि राउटर डिजाइन और विशेषज्ञ आवंटन। आशा है कि यह कार्य MoE फ्रेमवर्क और अन्य मॉड्युलर आर्किटेक्चरों पर भविष्य के शोध को प्रकाश डालेगा। कोड इस लिंक पर उपलब्ध है https://github.com/kamanphoebe/Look-into-MoEs।
Building similarity graph...
Analyzing shared references across papers
Loading...
Ka Man Lo
Zeyu Huang
Zihan Qiu
Building similarity graph...
Analyzing shared references across papers
Loading...
लो एट अल. (बुधवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e634cdb6db6435875c62de — DOI: https://doi.org/10.48550/arxiv.2406.18219
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: