April 8, 2024Open Access

稠密训练，稀疏推理：重新思考混合专家语言模型的训练

Key Points

Key points are not available for this paper at this time.

Abstract

混合专家（MoE）语言模型相比稠密模型可将计算成本减少2-4倍，同时不牺牲性能，使其在计算受限的场景中更高效。然而，MoE模型通常需要2-4倍的参数量才能达到与稠密模型相当的性能，这导致更大的GPU内存需求，并使MoE模型在I/O受限的场景如自回归生成中效率较低。在本工作中，我们提出了一种结合稠密训练和稀疏推理的MoE模型框架（DS-MoE），通过训练期间对所有专家进行稠密计算和推理阶段的稀疏计算，实现了强大的计算和参数效率。我们在训练大规模语言模型的实验中证明，DS-MoE模型比标准稀疏MoE在参数效率上更优，且在总参数量和性能方面与稠密模型相当，且计算成本更低（激活模型参数的30-40%）。使用vLLM的性能测试显示，DS-MoE-6B模型运行速度相比类似的稠密模型如Mistral-7B快高达1.86倍，相较于可比MoE模型如DeepSeekMoE-16B和Qwen1.5-MoE-A2.7B快1.50至1.71倍。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bowen Pan

Yikang Shen

Haokun Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

稠密训练，稀疏推理：重新思考混合专家语言模型的训练

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider