Key points are not available for this paper at this time.
हम मेगा ब्लॉक्स प्रस्तुत करते हैं, जो GPU पर कुशल मिश्रित-विशेषज्ञ (MoE) प्रशिक्षण के लिए एक प्रणाली है। हमारा सिस्टम वर्तमान फ्रेमवर्क की सीमाओं से प्रेरित है, जो MoE परतों में डायनामिक रूटिंग को मौजूदा सॉफ्टवेयर और हार्डवेयर की बाधाओं को पूरा करने के लिए प्रतिबंधित करता है। ये व्यावधान मॉडल गुणवत्ता और हार्डवेयर दक्षता के बीच समझौता करने के लिए मजबूर करते हैं, क्योंकि उपयोगकर्ताओं को गणना से टोकन छोड़ने या पैडिंग पर अनावश्यक गणना और मेमोरी खर्च करने के बीच चयन करना पड़ता है। इन सीमाओं को दूर करने के लिए, हमने MoE गणना को ब्लॉक-स्पैर्स ऑपरेशनों के संदर्भ में पुनः स्वरूपित किया और नए ब्लॉक-स्पैर्स GPU कर्नेल विकसित किए जो MoEs में मौजूद डायनेमिज्म को कुशलतापूर्वक संभालते हैं। हमारा तरीका कभी भी टोकन नहीं छोड़ता और आधुनिक हार्डवेयर पर कुशलतापूर्वक मैप करता है, जिससे Tutel पुस्तकालय के साथ प्रशिक्षित MoEs की तुलना में अंत-से-अंत प्रशिक्षण में 40% तक और अत्यधिक अनुकूलित Megatron-LM फ्रेमवर्क के साथ प्रशिक्षित DNNs की तुलना में 2.4 गुना तेजी प्राप्त होती है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Trevor Gale
Deepak Narayanan
Cliff Young
Building similarity graph...
Analyzing shared references across papers
Loading...
गेल एट अल. (Tue,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/6a08e3f627ceb0c2a2d611f4 — DOI: https://doi.org/10.48550/arxiv.2211.15841