Key points are not available for this paper at this time.
Mixture-of-Experts (MoE)-Modelle sind darauf ausgelegt, die Effizienz großer Sprachmodelle (LLMs) zu verbessern, ohne die Rechenanforderungen proportional zu erhöhen. Ihre Bereitstellung auf Edge-Geräten steht jedoch weiterhin vor erheblichen Herausforderungen aufgrund hoher Ladeaufwände bei der Verwaltung spärlich aktivierter Experten. Dieses Papier stellt AdapMoE vor, einen Algorithmus-System-Ko-Design-Rahmen für effiziente MoE-Inferenz. AdapMoE bietet adaptives Experten-Gating und -Management, um die Ladeaufwände bei Bedarf zu reduzieren. Wir beobachten die Heterogenität der Experteladung über Schichten und Tokens hinweg und schlagen basierend darauf eine sensitivitätsbasierte Strategie vor, um die Anzahl der aktivierten Experten dynamisch anzupassen. Gleichzeitig integrieren wir fortschrittliche Prefetching- und Cache-Management-Techniken, um die Ladeverzögerung weiter zu verringern. Durch umfassende Bewertungen auf verschiedenen Plattformen demonstrieren wir, dass AdapMoE konsistent bestehende Techniken übertrifft, die durchschnittliche Anzahl der aktivierten Experten um 25 % reduziert und eine 1,35-fache Beschleunigung ohne Genauigkeitsverlust erreicht. Der Code ist verfügbar unter: https://github.com/PKU-SEC-Lab/AdapMoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuzhang Zhong
Ling Liang
Yuan Wang
Peking University
Beijing Advanced Sciences and Innovation Center
Beijing Academy of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhong et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e55b65e2b3180350ef90ad — DOI: https://doi.org/10.1145/3676536.3676741