Key points are not available for this paper at this time.
मिश्रण-ऑफ़-विशेषज्ञ (MoE) मॉडल बड़े भाषा मॉडलों (LLMs) की दक्षता बढ़ाने के लिए डिजाइन किए गए हैं बिना संगणनात्मक मांगों में समानुपाती वृद्धि किए। हालांकि, एज डिवाइस पर उनकी तैनाती अभी भी कमी-सक्रिय विशेषज्ञों के प्रबंधन से होने वाली उच्च मांग लोडिंग ओवरहेड के कारण महत्वपूर्ण चुनौतियों का सामना करती है। इस पेपर में AdapMoE पेश किया गया है, जो कुशल MoE इनफरेंस के लिए एक एल्गोरिदम-सिस्टम सह-डिज़ाइन फ्रेमवर्क है। AdapMoE में मांग लोडिंग ओवरहेड कम करने के लिए अनुकूली विशेषज्ञ गेटिंग और प्रबंधन शामिल है। हम परतों और टोकनों के बीच विशेषज्ञों के लोडिंग की विषमता का अवलोकन करते हैं, जिसके आधार पर हम सक्रिय विशेषज्ञों की संख्या को गतिशील रूप से समायोजित करने के लिए एक सेंसिटिविटी-आधारित रणनीति प्रस्तुत करते हैं। साथ ही, हम लोडिंग विलंब को और कम करने के लिए उन्नत प्रीफेचिंग और कैश प्रबंधन तकनीकों को भी एकीकृत करते हैं। विभिन्न प्लेटफार्मों पर व्यापक मूल्यांकन के माध्यम से, हम दिखाते हैं कि AdapMoE मौजूदा तकनीकों की तुलना में लगातार बेहतर प्रदर्शन करता है, सक्रिय विशेषज्ञों की औसत संख्या को 25% तक कम करता है और बिना सटीकता ह्रास के 1.35x तेजी प्राप्त करता है। कोड उपलब्ध है: https://github.com/PKU-SEC-Lab/AdapMoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuzhang Zhong
Ling Liang
Yuan Wang
Peking University
Beijing Advanced Sciences and Innovation Center
Beijing Academy of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhong et al. (Sun,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e55b65e2b3180350ef90ad — DOI: https://doi.org/10.1145/3676536.3676741
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: