CARL-MoE तकनीकी रिपोर्ट / प्रीप्रिंट। Sparse Mixture-of-Experts (MoE) मॉडल प्रति टोकन संगत गणना के बिना पैरामीटर क्षमता बढ़ाते हैं क्योंकि वे प्रत्येक टोकन के लिए केवल विशेषज्ञों के एक उपसमुच्चय को सक्रिय करते हैं Shazeer et al., 2017; Fedus et al., 2022; Du et al., 2022। व्यावहारिक रूप से, हालांकि, प्रशिक्षण दक्षता अक्सर तीन जुड़ी हुई समस्याओं द्वारा सीमित होती है: टोपोलॉजी-अविबेकी रूटिंग, असमान विशेषज्ञ उपयोग, और महंगी विशेषज्ञ-पैरेलल संचार Lepikhin et al., 2021; Rajbhandari et al., 2022; Gale et al., 2023। पूर्व कार्यों ने अक्सर रूटिंग, संतुलन, या वितरित निष्पादन को अलग से बेहतर किया है। यह पृथक्करण टोकन-विशेषज्ञ अनुरूपता और विषम क्लस्टर में टोकन भेजने की वास्तविक लागत के बीच असंतुलन पैदा कर सकता है। हम कुशल MoE प्रशिक्षण के लिए एक एकीकृत फ्रेमवर्क प्रस्तुत करते हैं जो सम्मिलित करता है: (i) संचार-ज्ञानपूर्ण रूटिंग, जो अनुमानित प्रेषण लागत का उपयोग करके राउटर उपयोगिताओं को समायोजित करता है; (ii) अनुकूली द्वि-स्तरीय लोड संतुलन, जो विशेषज्ञ-स्तरीय और समूह-स्तरीय लोड दोनों को नियमित करता है और देखे गए विषमता के आधार पर संतुलन की ताकत को समायोजित करता है; और (iii) संचार-ज्ञानपूर्ण विशेषज्ञ समानांतरता, जिसमें स्थानीयता-अनुरूप पदानुक्रमित रूटिंग, एक संक्षिप्त Sinkhorn-आधारित वार्म स्टार्ट, और संचयी रूटिंग आंकड़ों का उपयोग करके आवधिक विशेषज्ञ प्लेसमेंट रीफ्रेश शामिल है। योगदान मुख्य रूप से समेकित है न कि किसी एक तंत्र की पहली खोज का दावा। हम विधि को सटीक रूप से सूत्रबद्ध करते हैं, इसके संगणनात्मक व्यापार-ऑफ का विश्लेषण करते हैं, और पारदर्शी संचार मॉडल के अंतर्गत सटीक गणना मानों के साथ सिमुलेशन-आधारित प्रयोग रिपोर्ट करते हैं। अध्ययन किए गए सेटिंग्स में, एकीकृत विधि टोपोलॉजी-अविबेकी बेसलाइन्स की तुलना में अनुकरणीय संचार लागत और लोड विषमता कम करती है जबकि रूटिंग चयनशीलता को बनाए रखती है। ये परिणाम व्यापक सिस्टम-ML सिद्धांत का समर्थन करते हैं कि MoE रूटिंग को व्यक्तिगत रूप से अनुकूलित करने के बजाय क्लस्टर टोपोलॉजी के साथ सह-डिज़ाइन किया जाना चाहिए। मौजूदा OSF अभिलेख DOI: 10.17605/OSF.IO/3MF56; मौजूदा OSF अभिलेख पृष्ठ: https://osf.io/3mf56/। फ़ाइलों में तकनीकी रिपोर्ट PDF और उपलब्ध होने पर LaTeX स्रोत टारबॉल शामिल हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Haopeng Jin
Beijing University of Posts and Telecommunications
Building similarity graph...
Analyzing shared references across papers
Loading...
Haopeng Jin (Mon,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/69ec5aa788ba6daa22dac24a — DOI: https://doi.org/10.5281/zenodo.19712472
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: