What does this research mean for the field?

Integrating communication-aware routing, adaptive load balancing, and communication-aware expert parallelism reduces communication cost and load skew in Mixture-of-Experts (MoE) training compared to topology-oblivious baselines. Novelty: ClaimNovelty.METHODOLOGICAL. Consensus alignment: ConsensusAlignment.SUPPORTS_CONSENSUS.

What question did this study set out to answer?

मुख्य उद्देश्य मार्गदर्शन और संचार चुनौतियों को संबोधित करके sparse mixture-of-experts प्रशिक्षण की दक्षता को सुधारना है।

April 25, 2026Open Access

CARL-MoE: कुशल मिश्रण-विशेषज्ञ प्रशिक्षण के लिए लोड-संतुलित विशेषज्ञ समानांतरता के साथ संचार-ज्ञानपूर्ण अनुकूली रूटिंग

Key Points

मुख्य उद्देश्य मार्गदर्शन और संचार चुनौतियों को संबोधित करके sparse mixture-of-experts प्रशिक्षण की दक्षता को सुधारना है।
संचार-ज्ञानपूर्ण रूटिंग और अनुकूली लोड संतुलन को संयोजित करते हुए एक एकीकृत फ्रेमवर्क विकसित किया।
विशेषज्ञ और समूह-स्तरीय लोड को नियमित करने के लिए द्वि-स्तरीय लोड संतुलन रणनीति लागू की।
टोपोलॉजी-अविबेकी बेसलाइन्स के विरुद्ध विधि के प्रदर्शन का मूल्यांकन करने के लिए सिमुलेशन-आधारित प्रयोग किए।
मौजूदा विधियों की तुलना में अनुकरणीय संचार लागत को महत्वपूर्ण रूप से कम किया।
विभिन्न क्लस्टर सेटिंग्स में रूटिंग चयनशीलता बनाए रखते हुए लोड विषमता कम की।

Abstract

CARL-MoE तकनीकी रिपोर्ट / प्रीप्रिंट। Sparse Mixture-of-Experts (MoE) मॉडल प्रति टोकन संगत गणना के बिना पैरामीटर क्षमता बढ़ाते हैं क्योंकि वे प्रत्येक टोकन के लिए केवल विशेषज्ञों के एक उपसमुच्चय को सक्रिय करते हैं Shazeer et al., 2017; Fedus et al., 2022; Du et al., 2022। व्यावहारिक रूप से, हालांकि, प्रशिक्षण दक्षता अक्सर तीन जुड़ी हुई समस्याओं द्वारा सीमित होती है: टोपोलॉजी-अविबेकी रूटिंग, असमान विशेषज्ञ उपयोग, और महंगी विशेषज्ञ-पैरेलल संचार Lepikhin et al., 2021; Rajbhandari et al., 2022; Gale et al., 2023। पूर्व कार्यों ने अक्सर रूटिंग, संतुलन, या वितरित निष्पादन को अलग से बेहतर किया है। यह पृथक्करण टोकन-विशेषज्ञ अनुरूपता और विषम क्लस्टर में टोकन भेजने की वास्तविक लागत के बीच असंतुलन पैदा कर सकता है। हम कुशल MoE प्रशिक्षण के लिए एक एकीकृत फ्रेमवर्क प्रस्तुत करते हैं जो सम्मिलित करता है: (i) संचार-ज्ञानपूर्ण रूटिंग, जो अनुमानित प्रेषण लागत का उपयोग करके राउटर उपयोगिताओं को समायोजित करता है; (ii) अनुकूली द्वि-स्तरीय लोड संतुलन, जो विशेषज्ञ-स्तरीय और समूह-स्तरीय लोड दोनों को नियमित करता है और देखे गए विषमता के आधार पर संतुलन की ताकत को समायोजित करता है; और (iii) संचार-ज्ञानपूर्ण विशेषज्ञ समानांतरता, जिसमें स्थानीयता-अनुरूप पदानुक्रमित रूटिंग, एक संक्षिप्त Sinkhorn-आधारित वार्म स्टार्ट, और संचयी रूटिंग आंकड़ों का उपयोग करके आवधिक विशेषज्ञ प्लेसमेंट रीफ्रेश शामिल है। योगदान मुख्य रूप से समेकित है न कि किसी एक तंत्र की पहली खोज का दावा। हम विधि को सटीक रूप से सूत्रबद्ध करते हैं, इसके संगणनात्मक व्यापार-ऑफ का विश्लेषण करते हैं, और पारदर्शी संचार मॉडल के अंतर्गत सटीक गणना मानों के साथ सिमुलेशन-आधारित प्रयोग रिपोर्ट करते हैं। अध्ययन किए गए सेटिंग्स में, एकीकृत विधि टोपोलॉजी-अविबेकी बेसलाइन्स की तुलना में अनुकरणीय संचार लागत और लोड विषमता कम करती है जबकि रूटिंग चयनशीलता को बनाए रखती है। ये परिणाम व्यापक सिस्टम-ML सिद्धांत का समर्थन करते हैं कि MoE रूटिंग को व्यक्तिगत रूप से अनुकूलित करने के बजाय क्लस्टर टोपोलॉजी के साथ सह-डिज़ाइन किया जाना चाहिए। मौजूदा OSF अभिलेख DOI: 10.17605/OSF.IO/3MF56; मौजूदा OSF अभिलेख पृष्ठ: https://osf.io/3mf56/। फ़ाइलों में तकनीकी रिपोर्ट PDF और उपलब्ध होने पर LaTeX स्रोत टारबॉल शामिल हैं।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haopeng Jin

Actions

Institutions

Beijing University of Posts and Telecommunications

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider