July 26, 2024Open Access

LocMoE: बड़े भाषा मॉडल प्रशिक्षण के लिए एक कम-ओवरहेड MoE

Key Points

Key points are not available for this paper at this time.

Abstract

मिश्रित-विशेषज्ञ (MoE) मॉडल बड़े भाषा मॉडलों (LLM) के लिए एक व्यापक वितरित और समेकित शिक्षण विधि है, जिसे मॉडल को कुशलतापूर्वक विरल और विस्तारित करने की इसकी क्षमता के कारण प्राथमिकता दी जाती है। हालांकि, MoE का प्रदर्शन लोड असंतुलन और ऑल-टू-ऑल संचार की उच्च विलंबता से सीमित है, साथ ही बड़े विशेषज्ञ क्षमता के कारण अपेक्षाकृत अधिक गणना होती है। लोड असंतुलन मौजूदा रूटिंग नीतियों के कारण हो सकता है जो लगातार कुछ विशेषज्ञों को चुनने की प्रवृत्ति रखती हैं। ऑल-टू-ऑल प्रक्रिया में बार-बार इंटर-नोड संचार प्रशिक्षण समय को भी काफी बढ़ा देता है। उपरोक्त प्रदर्शन समस्याओं को कम करने के लिए, हम एक नवीन रूटिंग रणनीति प्रस्तावित करते हैं जो लोड संतुलन और स्थानीयता को जोड़ती है, आंशिक इंटर-नोड संचार को इंट्रा-नोड संचार में परिवर्तित करके। विशेष रूप से, हम स्पष्ट करते हैं कि विशेषज्ञ क्षमता के लिए एक न्यूनतम सीमा होती है, जो विशेषज्ञों के गेटिंग वज़न और असाइन किए गए टोकनों के बीच अधिकतम कोणीय विचलन के माध्यम से गणना की जाती है। हमने इन परिवर्तनों को MindSpore फ्रेमवर्क पर आधारित PanGu-Σ मॉडल में मल्टी-लेवल रूटिंग के साथ लागू किया और Ascend क्लस्टर पर प्रयोग किए। प्रयोग परिणाम दिखाते हैं कि प्रस्तावित LocMoE प्रशिक्षण समय को प्रति युग 12.68% से 22.24% तक कम करता है, क्लासिक राउटरों जैसे हैश राउटर और स्विच राउटर की तुलना में, बिना मॉडल की सटीकता को प्रभावित किए।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jing Li

Zhijie Sun

Xuan He

Actions

Institutions

Huawei Technologies (United Kingdom)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LocMoE: बड़े भाषा मॉडल प्रशिक्षण के लिए एक कम-ओवरहेड MoE

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider