May 23, 2024Open Access

未被选择的专家也能贡献力量：通过自我对比释放MoE模型的潜力

Key Points

Key points are not available for this paper at this time.

Abstract

专家混合（MoE）已成为一种在保持计算效率的同时扩展模型规模的重要架构。在MoE中，输入序列中的每个token激活由路由机制确定的不同专家子集。然而，MoE模型中未被选择的专家不参与输出，可能导致模型容量利用不足。在本研究中，我们首先进行探索性研究，证明增加激活专家数量不一定提升甚至可能降低输出质量。随后，我们展示了采用不同路由策略的MoE模型输出分布存在显著差异，表明不同专家不总是协同工作。基于这些发现，我们提出了自我对比专家混合（SCMoE），一种在推理阶段利用未被选择专家进行自我对比的免训练策略。在SCMoE中，下一个token的概率由同一MoE模型的强激活与弱激活输出的对比分得。该方法概念简单且计算开销较低，较贪婪解码延迟极小。在多个基准（GSM8K，StrategyQA，MBPP及HumanEval）上的实验表明，SCMoE可持续增强Mixtral 8x7B在各领域的推理能力。例如，它将GSM8K的准确率从61.79提升至66.94。此外，将SCMoE与自洽性结合，主@20准确率从75.59提升至78.31。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chufan Shi

Cheng Yang

Xinyu Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

未被选择的专家也能贡献力量：通过自我对比释放MoE模型的潜力

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider