November 29, 2022Open Access

मेगा ब्लॉक्स: मिश्रित-विशेषज्ञों के साथ कुशल विरल प्रशिक्षण

Key Points

Key points are not available for this paper at this time.

Abstract

हम मेगा ब्लॉक्स प्रस्तुत करते हैं, जो GPU पर कुशल मिश्रित-विशेषज्ञ (MoE) प्रशिक्षण के लिए एक प्रणाली है। हमारा सिस्टम वर्तमान फ्रेमवर्क की सीमाओं से प्रेरित है, जो MoE परतों में डायनामिक रूटिंग को मौजूदा सॉफ्टवेयर और हार्डवेयर की बाधाओं को पूरा करने के लिए प्रतिबंधित करता है। ये व्यावधान मॉडल गुणवत्ता और हार्डवेयर दक्षता के बीच समझौता करने के लिए मजबूर करते हैं, क्योंकि उपयोगकर्ताओं को गणना से टोकन छोड़ने या पैडिंग पर अनावश्यक गणना और मेमोरी खर्च करने के बीच चयन करना पड़ता है। इन सीमाओं को दूर करने के लिए, हमने MoE गणना को ब्लॉक-स्पैर्स ऑपरेशनों के संदर्भ में पुनः स्वरूपित किया और नए ब्लॉक-स्पैर्स GPU कर्नेल विकसित किए जो MoEs में मौजूद डायनेमिज्म को कुशलतापूर्वक संभालते हैं। हमारा तरीका कभी भी टोकन नहीं छोड़ता और आधुनिक हार्डवेयर पर कुशलतापूर्वक मैप करता है, जिससे Tutel पुस्तकालय के साथ प्रशिक्षित MoEs की तुलना में अंत-से-अंत प्रशिक्षण में 40% तक और अत्यधिक अनुकूलित Megatron-LM फ्रेमवर्क के साथ प्रशिक्षित DNNs की तुलना में 2.4 गुना तेजी प्राप्त होती है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Trevor Gale

Deepak Narayanan

Cliff Young

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

मेगा ब्लॉक्स: मिश्रित-विशेषज्ञों के साथ कुशल विरल प्रशिक्षण

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study