Key points are not available for this paper at this time.
混合专家(MoE)语言模型相比稠密模型可将计算成本减少2-4倍,同时不牺牲性能,使其在计算受限的场景中更高效。然而,MoE模型通常需要2-4倍的参数量才能达到与稠密模型相当的性能,这导致更大的GPU内存需求,并使MoE模型在I/O受限的场景如自回归生成中效率较低。在本工作中,我们提出了一种结合稠密训练和稀疏推理的MoE模型框架(DS-MoE),通过训练期间对所有专家进行稠密计算和推理阶段的稀疏计算,实现了强大的计算和参数效率。我们在训练大规模语言模型的实验中证明,DS-MoE模型比标准稀疏MoE在参数效率上更优,且在总参数量和性能方面与稠密模型相当,且计算成本更低(激活模型参数的30-40%)。使用vLLM的性能测试显示,DS-MoE-6B模型运行速度相比类似的稠密模型如Mistral-7B快高达1.86倍,相较于可比MoE模型如DeepSeekMoE-16B和Qwen1.5-MoE-A2.7B快1.50至1.71倍。
Building similarity graph...
Analyzing shared references across papers
Loading...
Bowen Pan
Yikang Shen
Haokun Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Pan等人(Mon,)研究了这一问题。
www.synapsesocial.com/papers/68e700dcb6db64358767a675 — DOI: https://doi.org/10.48550/arxiv.2404.05567
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: