Key points are not available for this paper at this time.
बड़े भाषा मॉडल (LLMs) का स्केलिंग उनकी विभिन्न कार्यों में क्षमताओं को क्रांतिकारी बना चुका है, फिर भी इस वृद्धि को कुशल कम्प्यूटेशनल रणनीतियों के साथ मेल करना आवश्यक है। मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर मॉडल आकार को बढ़ाने की क्षमता के लिए विशिष्ट है बिना प्रशिक्षण लागतों को काफी बढ़ाए। अपने लाभों के बावजूद, वर्तमान MoE मॉडल अक्सर पैरामीटर अक्षम होते हैं। उदाहरण के लिए, एक पूर्व-प्रशिक्षित MoE-आधारित LLM जिसमें 52 बिलियन पैरामीटर हैं, वह अक्सर 6.7 बिलियन पैरामीटर वाले स्टैंडर्ड मॉडल के तुलनीय प्रदर्शन करता है। MoE का महत्वपूर्ण हिस्सा होने के नाते, वर्तमान विभिन्न स्तरों में राउटर स्वतंत्र रूप से टोकन आवंटित करते हैं बिना ऐतिहासिक रूटिंग जानकारी का उपयोग किए, जिससे संभावित रूप से उपयुक्त टोकन-एक्सपर्ट संयोजन और पैरामीटर अक्षम समस्या हो सकती है। इस समस्या को कम करने के लिए, हम मिक्सचर-ऑफ-एक्सपर्ट्स के लिए लेयरवाईज रेकरेन्ट राउटर (RMoE) प्रस्तुत करते हैं। RMoE एक Gated Recurrent Unit (GRU) का उपयोग करता है जो लगातार लेयर्स में रूटिंग निर्णयों के बीच निर्भरता स्थापित करता है। ऐसा लेयरवाईज रेकरेन्स इनपुट टोकन के लिए कुशलतापूर्वक समानांतर में कंप्यूट किया जा सकता है और इसका लागत स्वीकार्य है। हमारे व्यापक अनुभवजन्य मूल्यांकन दर्शाते हैं कि RMoE-आधारित भाषा मॉडल निरंतर विभिन्न बेसलाइन मॉडलों से बेहतर प्रदर्शन करते हैं। इसके अलावा, RMoE एक नवीन कम्प्यूटेशन स्तरीय चरण जोड़ता है जो मौजूदा विधियों के लंबवत है, जिससे यह अन्य MoE आर्किटेक्चर के साथ बिना बाधा के संगत होता है। हमारे विश्लेषण RMoE के लाभों को इसके प्रभावी क्रॉस-लेयर सूचना साझा करने से जोड़ते हैं, जो विशेषज्ञ चयन और विविधता में भी सुधार करता है। हमारा कोड https://github.com/qiuzh20/RMoE पर उपलब्ध है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Zihan Qiu
Zeyu Huang
Shuang Cheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Qiu और अन्य (मंगलवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e5c967b6db64358755f7e1 — DOI: https://doi.org/10.48550/arxiv.2408.06793
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: