May 23, 2024Open Access

डायनामिक मिक्स्चर ऑफ एक्सपर्ट्स: कुशल ट्रांसफॉर्मर मॉडलों के लिए एक ऑटो-ट्यूनिंग दृष्टिकोण

Key Points

Key points are not available for this paper at this time.

Abstract

स्पार्स मिक्स्चर ऑफ एक्सपर्ट्स (SMoE) का व्यापक रूप से ट्रांसफॉर्मर-आधारित फाउंडेशनल मॉडलों के प्रशिक्षण और अनुमान की दक्षता बढ़ाने के लिए उपयोग किया गया है, जिससे आशाजनक परिणाम मिले हैं। हालांकि, SMoE का प्रदर्शन बहुत हद तक हाइपर-पैरामीटर के चयन पर निर्भर करता है, जैसे कि विशेषज्ञों की संख्या और सक्रिय किए जाने वाले विशेषज्ञों की संख्या (जिसे टॉप-k कहा जाता है), जिससे विभिन्न हाइपर-पैरामीटर विन्यासों की खोज के कारण महत्वपूर्ण कंप्यूटेशनल ओवरहेड होता है। इस समस्या के समाधान के रूप में, हमने डायनामिक मिक्स्चर ऑफ एक्सपर्ट्स (DynMoE) तकनीक पेश की है। DynMoE में (1) एक नवीन गेटिंग विधि शामिल है जो प्रत्येक टोकन को स्वचालित रूप से सक्रिय किए जाने वाले विशेषज्ञों की संख्या निर्धारित करने में सक्षम बनाती है। (2) एक अनुकूली प्रक्रिया जो प्रशिक्षण के दौरान विशेषज्ञों की संख्या को स्वचालित रूप से समायोजित करती है। विज़न, भाषा और विज़न-भाषा कार्यों में व्यापक संख्यात्मक परिणाम हमारे दृष्टिकोण की प्रभावशीलता प्रदर्शित करते हैं, जो विज़न और भाषा कार्यों के लिए GMoE और विज़न-भाषा कार्यों के लिए MoE-LLaVA की तुलना में प्रतिस्पर्धी प्रदर्शन प्राप्त करते हैं, जबकि कम पैरामीटर सक्रिय करके दक्षता बनाए रखते हैं। हमारे कोड उपलब्ध है https://github.com/LINs-lab/DynMoE पर।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yongxin Guo

Zhenglin Cheng

Xiaoying Tang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

डायनामिक मिक्स्चर ऑफ एक्सपर्ट्स: कुशल ट्रांसफॉर्मर मॉडलों के लिए एक ऑटो-ट्यूनिंग दृष्टिकोण

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider