Key points are not available for this paper at this time.
Modelos Mixture-of-Experts (MoE) são projetados para melhorar a eficiência de grandes modelos de linguagem (LLMs) sem aumentar proporcionalmente as demandas computacionais. No entanto, sua implementação em dispositivos de borda ainda enfrenta desafios significativos devido aos altos custos de carregamento sob demanda ao gerenciar especialistas ativados esparsamente. Este artigo apresenta AdapMoE, uma estrutura de co-projeto algoritmo-sistema para inferência eficiente de MoE. O AdapMoE possui ativação e gerenciamento adaptativos de especialistas para reduzir os custos de carregamento sob demanda. Observamos a heterogeneidade do carregamento dos especialistas entre camadas e tokens, com base na qual propomos uma estratégia baseada em sensibilidade para ajustar dinamicamente o número de especialistas ativados. Paralelamente, também integramos técnicas avançadas de prefetching e gerenciamento de cache para reduzir ainda mais a latência de carregamento. Por meio de avaliações abrangentes em diversas plataformas, demonstramos que o AdapMoE supera consistentemente técnicas existentes, reduzindo o número médio de especialistas ativados em 25% e alcançando uma aceleração de 1,35x sem perda de acurácia. O código está disponível em: https://github.com/PKU-SEC-Lab/AdapMoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuzhang Zhong
Ling Liang
Yuan Wang
Peking University
Beijing Advanced Sciences and Innovation Center
Beijing Academy of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhong et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68e55b65e2b3180350ef90ad — DOI: https://doi.org/10.1145/3676536.3676741
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: