Key points are not available for this paper at this time.
扩大模型容量可以增强其能力,但会显著增加计算量。混合专家模型(MoEs)通过允许模型容量扩展而不大幅增加训练或推理成本来解决这一问题。尽管取得了良好效果,MoE模型仍面临若干挑战。主要是训练词元分散到多个专家,可能导致欠拟合,尤其是对于罕见词元。此外,固定路由机制虽能缓解此问题,却牺牲了表示的多样性。本文提出MaskMoE,一种通过在混合专家模型中采用路由掩码技术来增强词元级学习的方法。MaskMoE能够在保持表示多样性的同时实现更全面的训练。实验结果表明,我们的方法在困惑度(PPL)和下游任务上均优于此前的主流混合专家模型。
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenpeng Su
Zijia Lin
Xue Bai
Building similarity graph...
Analyzing shared references across papers
Loading...
Su 等人(Sat,)研究了这个问题。
www.synapsesocial.com/papers/68e60780b6db64358759aa10 — DOI: https://doi.org/10.48550/arxiv.2407.09816
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: