October 27, 2024Open Access

AdapMoE: Adaptives Sensitivitätsbasiertes Experten-Gating und -Management für effiziente MoE-Inferenz

Key Points

Key points are not available for this paper at this time.

Abstract

Mixture-of-Experts (MoE)-Modelle sind darauf ausgelegt, die Effizienz großer Sprachmodelle (LLMs) zu verbessern, ohne die Rechenanforderungen proportional zu erhöhen. Ihre Bereitstellung auf Edge-Geräten steht jedoch weiterhin vor erheblichen Herausforderungen aufgrund hoher Ladeaufwände bei der Verwaltung spärlich aktivierter Experten. Dieses Papier stellt AdapMoE vor, einen Algorithmus-System-Ko-Design-Rahmen für effiziente MoE-Inferenz. AdapMoE bietet adaptives Experten-Gating und -Management, um die Ladeaufwände bei Bedarf zu reduzieren. Wir beobachten die Heterogenität der Experteladung über Schichten und Tokens hinweg und schlagen basierend darauf eine sensitivitätsbasierte Strategie vor, um die Anzahl der aktivierten Experten dynamisch anzupassen. Gleichzeitig integrieren wir fortschrittliche Prefetching- und Cache-Management-Techniken, um die Ladeverzögerung weiter zu verringern. Durch umfassende Bewertungen auf verschiedenen Plattformen demonstrieren wir, dass AdapMoE konsistent bestehende Techniken übertrifft, die durchschnittliche Anzahl der aktivierten Experten um 25 % reduziert und eine 1,35-fache Beschleunigung ohne Genauigkeitsverlust erreicht. Der Code ist verfügbar unter: https://github.com/PKU-SEC-Lab/AdapMoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuzhang Zhong

Ling Liang

Yuan Wang

Actions

Institutions

Peking University

Beijing Advanced Sciences and Innovation Center

Beijing Academy of Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AdapMoE: Adaptives Sensitivitätsbasiertes Experten-Gating und -Management für effiziente MoE-Inferenz

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study