Key points are not available for this paper at this time.
Modelos de linguagem Mixture-of-Experts (MoE) podem reduzir custos computacionais em 2-4 vezes comparados a modelos densos sem sacrificar o desempenho, tornando-os mais eficientes em cenários limitados por computação. No entanto, modelos MoE geralmente requerem 2-4 vezes mais parâmetros para alcançar desempenho comparável a um modelo denso, o que implica maiores requisitos de memória GPU e torna modelos MoE menos eficientes em cenários limitados por I/O, como a geração autorregressiva. Neste trabalho, propomos uma estrutura híbrida de treinamento denso e inferência esparsa para modelos MoE (DS-MoE) que alcança forte eficiência computacional e de parâmetros ao empregar computação densa em todos os especialistas durante o treinamento e computação esparsa durante a inferência. Nossos experimentos no treinamento de LLMs demonstram que nossos modelos DS-MoE são mais eficientes em parâmetros que MoEs esparsos padrão e estão no mesmo nível de modelos densos em termos de tamanho total de parâmetros e desempenho, enquanto são computacionalmente mais baratos (ativando 30-40% dos parâmetros do modelo). Testes de desempenho usando vLLM mostram que nosso modelo DS-MoE-6B roda até 1,86 vezes mais rápido que modelos densos similares como Mistral-7B, e entre 1,50 e 1,71 vezes mais rápido que MoEs comparáveis, como DeepSeekMoE-16B e Qwen1.5-MoE-A2.7B.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bowen Pan
Yikang Shen
Haokun Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Pan et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e700dcb6db64358767a675 — DOI: https://doi.org/10.48550/arxiv.2404.05567
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: