Key points are not available for this paper at this time.
मिश्रित-विशेषज्ञ (MoE) मॉडल बड़े भाषा मॉडलों (LLM) के लिए एक व्यापक वितरित और समेकित शिक्षण विधि है, जिसे मॉडल को कुशलतापूर्वक विरल और विस्तारित करने की इसकी क्षमता के कारण प्राथमिकता दी जाती है। हालांकि, MoE का प्रदर्शन लोड असंतुलन और ऑल-टू-ऑल संचार की उच्च विलंबता से सीमित है, साथ ही बड़े विशेषज्ञ क्षमता के कारण अपेक्षाकृत अधिक गणना होती है। लोड असंतुलन मौजूदा रूटिंग नीतियों के कारण हो सकता है जो लगातार कुछ विशेषज्ञों को चुनने की प्रवृत्ति रखती हैं। ऑल-टू-ऑल प्रक्रिया में बार-बार इंटर-नोड संचार प्रशिक्षण समय को भी काफी बढ़ा देता है। उपरोक्त प्रदर्शन समस्याओं को कम करने के लिए, हम एक नवीन रूटिंग रणनीति प्रस्तावित करते हैं जो लोड संतुलन और स्थानीयता को जोड़ती है, आंशिक इंटर-नोड संचार को इंट्रा-नोड संचार में परिवर्तित करके। विशेष रूप से, हम स्पष्ट करते हैं कि विशेषज्ञ क्षमता के लिए एक न्यूनतम सीमा होती है, जो विशेषज्ञों के गेटिंग वज़न और असाइन किए गए टोकनों के बीच अधिकतम कोणीय विचलन के माध्यम से गणना की जाती है। हमने इन परिवर्तनों को MindSpore फ्रेमवर्क पर आधारित PanGu-Σ मॉडल में मल्टी-लेवल रूटिंग के साथ लागू किया और Ascend क्लस्टर पर प्रयोग किए। प्रयोग परिणाम दिखाते हैं कि प्रस्तावित LocMoE प्रशिक्षण समय को प्रति युग 12.68% से 22.24% तक कम करता है, क्लासिक राउटरों जैसे हैश राउटर और स्विच राउटर की तुलना में, बिना मॉडल की सटीकता को प्रभावित किए।
Building similarity graph...
Analyzing shared references across papers
Loading...
Jing Li
Zhijie Sun
Xuan He
Huawei Technologies (United Kingdom)
Building similarity graph...
Analyzing shared references across papers
Loading...
ली एट अल. (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e5ee87b6db643587582ee6 — DOI: https://doi.org/10.24963/ijcai.2024/705
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: