April 8, 2024Open Access

Treinamento Denso, Inferência Esparsa: Repensando o Treinamento de Modelos de Linguagem Mixture-of-Experts

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem Mixture-of-Experts (MoE) podem reduzir custos computacionais em 2-4 vezes comparados a modelos densos sem sacrificar o desempenho, tornando-os mais eficientes em cenários limitados por computação. No entanto, modelos MoE geralmente requerem 2-4 vezes mais parâmetros para alcançar desempenho comparável a um modelo denso, o que implica maiores requisitos de memória GPU e torna modelos MoE menos eficientes em cenários limitados por I/O, como a geração autorregressiva. Neste trabalho, propomos uma estrutura híbrida de treinamento denso e inferência esparsa para modelos MoE (DS-MoE) que alcança forte eficiência computacional e de parâmetros ao empregar computação densa em todos os especialistas durante o treinamento e computação esparsa durante a inferência. Nossos experimentos no treinamento de LLMs demonstram que nossos modelos DS-MoE são mais eficientes em parâmetros que MoEs esparsos padrão e estão no mesmo nível de modelos densos em termos de tamanho total de parâmetros e desempenho, enquanto são computacionalmente mais baratos (ativando 30-40% dos parâmetros do modelo). Testes de desempenho usando vLLM mostram que nosso modelo DS-MoE-6B roda até 1,86 vezes mais rápido que modelos densos similares como Mistral-7B, e entre 1,50 e 1,71 vezes mais rápido que MoEs comparáveis, como DeepSeekMoE-16B e Qwen1.5-MoE-A2.7B.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bowen Pan

Yikang Shen

Haokun Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Treinamento Denso, Inferência Esparsa: Repensando o Treinamento de Modelos de Linguagem Mixture-of-Experts

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider