Key points are not available for this paper at this time.
स्पार्स मिक्स्चर ऑफ एक्सपर्ट्स (SMoE) का व्यापक रूप से ट्रांसफॉर्मर-आधारित फाउंडेशनल मॉडलों के प्रशिक्षण और अनुमान की दक्षता बढ़ाने के लिए उपयोग किया गया है, जिससे आशाजनक परिणाम मिले हैं। हालांकि, SMoE का प्रदर्शन बहुत हद तक हाइपर-पैरामीटर के चयन पर निर्भर करता है, जैसे कि विशेषज्ञों की संख्या और सक्रिय किए जाने वाले विशेषज्ञों की संख्या (जिसे टॉप-k कहा जाता है), जिससे विभिन्न हाइपर-पैरामीटर विन्यासों की खोज के कारण महत्वपूर्ण कंप्यूटेशनल ओवरहेड होता है। इस समस्या के समाधान के रूप में, हमने डायनामिक मिक्स्चर ऑफ एक्सपर्ट्स (DynMoE) तकनीक पेश की है। DynMoE में (1) एक नवीन गेटिंग विधि शामिल है जो प्रत्येक टोकन को स्वचालित रूप से सक्रिय किए जाने वाले विशेषज्ञों की संख्या निर्धारित करने में सक्षम बनाती है। (2) एक अनुकूली प्रक्रिया जो प्रशिक्षण के दौरान विशेषज्ञों की संख्या को स्वचालित रूप से समायोजित करती है। विज़न, भाषा और विज़न-भाषा कार्यों में व्यापक संख्यात्मक परिणाम हमारे दृष्टिकोण की प्रभावशीलता प्रदर्शित करते हैं, जो विज़न और भाषा कार्यों के लिए GMoE और विज़न-भाषा कार्यों के लिए MoE-LLaVA की तुलना में प्रतिस्पर्धी प्रदर्शन प्राप्त करते हैं, जबकि कम पैरामीटर सक्रिय करके दक्षता बनाए रखते हैं। हमारे कोड उपलब्ध है https://github.com/LINs-lab/DynMoE पर।
Building similarity graph...
Analyzing shared references across papers
Loading...
Yongxin Guo
Zhenglin Cheng
Xiaoying Tang
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e68cfdb6db643587614c6b — DOI: https://doi.org/10.48550/arxiv.2405.14297
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: