Key points are not available for this paper at this time.
专家混合(MoE)已成为一种在保持计算效率的同时扩展模型规模的重要架构。在MoE中,输入序列中的每个token激活由路由机制确定的不同专家子集。然而,MoE模型中未被选择的专家不参与输出,可能导致模型容量利用不足。在本研究中,我们首先进行探索性研究,证明增加激活专家数量不一定提升甚至可能降低输出质量。随后,我们展示了采用不同路由策略的MoE模型输出分布存在显著差异,表明不同专家不总是协同工作。基于这些发现,我们提出了自我对比专家混合(SCMoE),一种在推理阶段利用未被选择专家进行自我对比的免训练策略。在SCMoE中,下一个token的概率由同一MoE模型的强激活与弱激活输出的对比分得。该方法概念简单且计算开销较低,较贪婪解码延迟极小。在多个基准(GSM8K,StrategyQA,MBPP及HumanEval)上的实验表明,SCMoE可持续增强Mixtral 8x7B在各领域的推理能力。例如,它将GSM8K的准确率从61.79提升至66.94。此外,将SCMoE与自洽性结合,主@20准确率从75.59提升至78.31。
Building similarity graph...
Analyzing shared references across papers
Loading...
Chufan Shi
Cheng Yang
Xinyu Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Shi等人(Thu,)研究了这一问题。
www.synapsesocial.com/papers/68e68bffb6db643587613e90 — DOI: https://doi.org/10.48550/arxiv.2405.14507
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: