August 13, 2024Open Access

मिक्सचर-ऑफ-एक्सपर्ट्स के लिए लेयरवाईज रेकरेन्ट राउटर

Key Points

Key points are not available for this paper at this time.

Abstract

बड़े भाषा मॉडल (LLMs) का स्केलिंग उनकी विभिन्न कार्यों में क्षमताओं को क्रांतिकारी बना चुका है, फिर भी इस वृद्धि को कुशल कम्प्यूटेशनल रणनीतियों के साथ मेल करना आवश्यक है। मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर मॉडल आकार को बढ़ाने की क्षमता के लिए विशिष्ट है बिना प्रशिक्षण लागतों को काफी बढ़ाए। अपने लाभों के बावजूद, वर्तमान MoE मॉडल अक्सर पैरामीटर अक्षम होते हैं। उदाहरण के लिए, एक पूर्व-प्रशिक्षित MoE-आधारित LLM जिसमें 52 बिलियन पैरामीटर हैं, वह अक्सर 6.7 बिलियन पैरामीटर वाले स्टैंडर्ड मॉडल के तुलनीय प्रदर्शन करता है। MoE का महत्वपूर्ण हिस्सा होने के नाते, वर्तमान विभिन्न स्तरों में राउटर स्वतंत्र रूप से टोकन आवंटित करते हैं बिना ऐतिहासिक रूटिंग जानकारी का उपयोग किए, जिससे संभावित रूप से उपयुक्त टोकन-एक्सपर्ट संयोजन और पैरामीटर अक्षम समस्या हो सकती है। इस समस्या को कम करने के लिए, हम मिक्सचर-ऑफ-एक्सपर्ट्स के लिए लेयरवाईज रेकरेन्ट राउटर (RMoE) प्रस्तुत करते हैं। RMoE एक Gated Recurrent Unit (GRU) का उपयोग करता है जो लगातार लेयर्स में रूटिंग निर्णयों के बीच निर्भरता स्थापित करता है। ऐसा लेयरवाईज रेकरेन्स इनपुट टोकन के लिए कुशलतापूर्वक समानांतर में कंप्यूट किया जा सकता है और इसका लागत स्वीकार्य है। हमारे व्यापक अनुभवजन्य मूल्यांकन दर्शाते हैं कि RMoE-आधारित भाषा मॉडल निरंतर विभिन्न बेसलाइन मॉडलों से बेहतर प्रदर्शन करते हैं। इसके अलावा, RMoE एक नवीन कम्प्यूटेशन स्तरीय चरण जोड़ता है जो मौजूदा विधियों के लंबवत है, जिससे यह अन्य MoE आर्किटेक्चर के साथ बिना बाधा के संगत होता है। हमारे विश्लेषण RMoE के लाभों को इसके प्रभावी क्रॉस-लेयर सूचना साझा करने से जोड़ते हैं, जो विशेषज्ञ चयन और विविधता में भी सुधार करता है। हमारा कोड https://github.com/qiuzh20/RMoE पर उपलब्ध है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zihan Qiu

Zeyu Huang

Shuang Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

मिक्सचर-ऑफ-एक्सपर्ट्स के लिए लेयरवाईज रेकरेन्ट राउटर

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider