July 13, 2024Open Access

MaskMoE：通过混合专家模型中的路由掩码提升词元级学习

Key Points

Key points are not available for this paper at this time.

Abstract

扩大模型容量可以增强其能力，但会显著增加计算量。混合专家模型（MoEs）通过允许模型容量扩展而不大幅增加训练或推理成本来解决这一问题。尽管取得了良好效果，MoE模型仍面临若干挑战。主要是训练词元分散到多个专家，可能导致欠拟合，尤其是对于罕见词元。此外，固定路由机制虽能缓解此问题，却牺牲了表示的多样性。本文提出MaskMoE，一种通过在混合专家模型中采用路由掩码技术来增强词元级学习的方法。MaskMoE能够在保持表示多样性的同时实现更全面的训练。实验结果表明，我们的方法在困惑度（PPL）和下游任务上均优于此前的主流混合专家模型。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenpeng Su

Zijia Lin

Xue Bai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MaskMoE：通过混合专家模型中的路由掩码提升词元级学习

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider