What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

集群专家混合模型：推进指令调优中的专家专门化与泛化

Key Points

集群专家混合模型（MoCE）提升了指令调优场景中的性能和泛化能力。
采用双阶段路由机制增强了专家组专门化，同时保持了token级的优势。
评估表明MoCE在多个基准测试中持续优于传统基线模型。
该方法提供了对其有效性的稳健分析，对处理异质输入类型至关重要。

Abstract

稀疏专家混合模型（MoE）架构通过有条件激活子模块，避免计算成本成比例增加，成为极具可扩展性的解决方案。然而，提升专家专门化以增强性能和泛化能力仍是MoE面临的挑战，特别是在具有高度输入异质性的指令调优场景中。本文提出了集群专家混合模型（MoCE），通过双阶段路由机制解决该限制。该机制第一阶段基于序列级特征进行专家组路由，第二阶段在token级别激活组内top-k专家。此方法实现了根据知识需求有效划分异质输入，促进专家组专门化，同时保持token级路由优势。我们在综合基准测试中评估MoCE，展示其对强基线模型的持续优势及增强的泛化能力。详细分析进一步凸显了MoCE的鲁棒性和有效性。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sugyeong Eo

Jungjun Lee

Chanjun Park

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

集群专家混合模型：推进指令调优中的专家专门化与泛化

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study