October 27, 2024Open Access

AdapMoE: कुशल MoE इनफरेंस के लिए अनुकूली सेंसिटिविटी-आधारित विशेषज्ञ गेटिंग और प्रबंधन

Key Points

Key points are not available for this paper at this time.

Abstract

मिश्रण-ऑफ़-विशेषज्ञ (MoE) मॉडल बड़े भाषा मॉडलों (LLMs) की दक्षता बढ़ाने के लिए डिजाइन किए गए हैं बिना संगणनात्मक मांगों में समानुपाती वृद्धि किए। हालांकि, एज डिवाइस पर उनकी तैनाती अभी भी कमी-सक्रिय विशेषज्ञों के प्रबंधन से होने वाली उच्च मांग लोडिंग ओवरहेड के कारण महत्वपूर्ण चुनौतियों का सामना करती है। इस पेपर में AdapMoE पेश किया गया है, जो कुशल MoE इनफरेंस के लिए एक एल्गोरिदम-सिस्टम सह-डिज़ाइन फ्रेमवर्क है। AdapMoE में मांग लोडिंग ओवरहेड कम करने के लिए अनुकूली विशेषज्ञ गेटिंग और प्रबंधन शामिल है। हम परतों और टोकनों के बीच विशेषज्ञों के लोडिंग की विषमता का अवलोकन करते हैं, जिसके आधार पर हम सक्रिय विशेषज्ञों की संख्या को गतिशील रूप से समायोजित करने के लिए एक सेंसिटिविटी-आधारित रणनीति प्रस्तुत करते हैं। साथ ही, हम लोडिंग विलंब को और कम करने के लिए उन्नत प्रीफेचिंग और कैश प्रबंधन तकनीकों को भी एकीकृत करते हैं। विभिन्न प्लेटफार्मों पर व्यापक मूल्यांकन के माध्यम से, हम दिखाते हैं कि AdapMoE मौजूदा तकनीकों की तुलना में लगातार बेहतर प्रदर्शन करता है, सक्रिय विशेषज्ञों की औसत संख्या को 25% तक कम करता है और बिना सटीकता ह्रास के 1.35x तेजी प्राप्त करता है। कोड उपलब्ध है: https://github.com/PKU-SEC-Lab/AdapMoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuzhang Zhong

Ling Liang

Yuan Wang

Actions

Institutions

Peking University

Beijing Advanced Sciences and Innovation Center

Beijing Academy of Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AdapMoE: कुशल MoE इनफरेंस के लिए अनुकूली सेंसिटिविटी-आधारित विशेषज्ञ गेटिंग और प्रबंधन

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider