Key points are not available for this paper at this time.
专家混合模型(MoE)通过选择性激活模型参数子集,实现了卓越的性能和计算效率。传统的MoE模型使用同质专家,每个专家具有相同的容量。然而,输入数据的复杂性变化要求专家具备多样的能力,而同质MoE阻碍了专家的有效专门化和参数的高效利用。在本研究中,我们提出了一种新颖的异构专家混合模型(HMoE),其中专家大小不同,从而具备多样的能力。这种异质性使得专家能够更专门地处理不同复杂性的token。为解决专家激活不均的问题,我们提出了新的训练目标,鼓励更频繁地激活较小专家,从而提升计算效率和参数利用率。大量实验表明,HMoE在激活更少参数的情况下,损失更低,并且在多种预训练评估基准上优于传统的同质MoE模型。代码将在接受后发布。
Building similarity graph...
Analyzing shared references across papers
Loading...
An Wang
Xingwu Sun
Ruobing Xie
Building similarity graph...
Analyzing shared references across papers
Loading...
王等人(Tue,)研究了这个问题。
www.synapsesocial.com/papers/68e5b9a9b6db643587551976 — DOI: https://doi.org/10.48550/arxiv.2408.10681
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: