October 27, 2024Open Access

AdapMoE: Gerenciamento e Ativação Adaptativa de Especialistas Sensíveis para Inferência Eficiente de MoE

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos Mixture-of-Experts (MoE) são projetados para melhorar a eficiência de grandes modelos de linguagem (LLMs) sem aumentar proporcionalmente as demandas computacionais. No entanto, sua implementação em dispositivos de borda ainda enfrenta desafios significativos devido aos altos custos de carregamento sob demanda ao gerenciar especialistas ativados esparsamente. Este artigo apresenta AdapMoE, uma estrutura de co-projeto algoritmo-sistema para inferência eficiente de MoE. O AdapMoE possui ativação e gerenciamento adaptativos de especialistas para reduzir os custos de carregamento sob demanda. Observamos a heterogeneidade do carregamento dos especialistas entre camadas e tokens, com base na qual propomos uma estratégia baseada em sensibilidade para ajustar dinamicamente o número de especialistas ativados. Paralelamente, também integramos técnicas avançadas de prefetching e gerenciamento de cache para reduzir ainda mais a latência de carregamento. Por meio de avaliações abrangentes em diversas plataformas, demonstramos que o AdapMoE supera consistentemente técnicas existentes, reduzindo o número médio de especialistas ativados em 25% e alcançando uma aceleração de 1,35x sem perda de acurácia. O código está disponível em: https://github.com/PKU-SEC-Lab/AdapMoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuzhang Zhong

Ling Liang

Yuan Wang

Actions

Institutions

Peking University

Beijing Advanced Sciences and Innovation Center

Beijing Academy of Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AdapMoE: Gerenciamento e Ativação Adaptativa de Especialistas Sensíveis para Inferência Eficiente de MoE

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider