August 20, 2024Open Access

HMoE：用于语言建模的异构专家混合模型

Key Points

Key points are not available for this paper at this time.

Abstract

专家混合模型（MoE）通过选择性激活模型参数子集，实现了卓越的性能和计算效率。传统的MoE模型使用同质专家，每个专家具有相同的容量。然而，输入数据的复杂性变化要求专家具备多样的能力，而同质MoE阻碍了专家的有效专门化和参数的高效利用。在本研究中，我们提出了一种新颖的异构专家混合模型（HMoE），其中专家大小不同，从而具备多样的能力。这种异质性使得专家能够更专门地处理不同复杂性的token。为解决专家激活不均的问题，我们提出了新的训练目标，鼓励更频繁地激活较小专家，从而提升计算效率和参数利用率。大量实验表明，HMoE在激活更少参数的情况下，损失更低，并且在多种预训练评估基准上优于传统的同质MoE模型。代码将在接受后发布。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

An Wang

Xingwu Sun

Ruobing Xie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HMoE：用于语言建模的异构专家混合模型

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider