稀疏专家混合模型(MoE)架构通过有条件激活子模块,避免计算成本成比例增加,成为极具可扩展性的解决方案。然而,提升专家专门化以增强性能和泛化能力仍是MoE面临的挑战,特别是在具有高度输入异质性的指令调优场景中。本文提出了集群专家混合模型(MoCE),通过双阶段路由机制解决该限制。该机制第一阶段基于序列级特征进行专家组路由,第二阶段在token级别激活组内top-k专家。此方法实现了根据知识需求有效划分异质输入,促进专家组专门化,同时保持token级路由优势。我们在综合基准测试中评估MoCE,展示其对强基线模型的持续优势及增强的泛化能力。详细分析进一步凸显了MoCE的鲁棒性和有效性。
Building similarity graph...
Analyzing shared references across papers
Loading...
Sugyeong Eo
Jungjun Lee
Chanjun Park
Building similarity graph...
Analyzing shared references across papers
Loading...
Eo等人(星期三,)研究了这一问题。
www.synapsesocial.com/papers/68ed1896f29694dd1da78c44 — DOI: https://doi.org/10.48550/arxiv.2509.10513