专家混合(MoE)架构已成为高效扩展大型语言模型(LLMs)的关键策略。然而,当前的MoE系统存在严重的负载不均衡问题,训练和推理过程中仅有一小部分专家被持续激活,导致模型容量和计算资源的大量未充分利用。本文从聚类视角重新审视专家路由,提出潜在原型路由(LPR),这是一种新颖的路由框架,能够泛化现有方法,同时促进专家的均衡利用而不影响下游性能。在包括DeepSeek-V3、Qwen3-MoE和Mixtral等多个开源MoE模型上的大量实验表明,LPR将专家负载的基尼系数从0.70降低至平均0.035,最小-最大专家负载比从1e-6提升至0.70,实现了近乎完美的负载均衡。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinge Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinge Yang(周四)研究了这个问题。
www.synapsesocial.com/papers/68f04acce559138a1a06e872 — DOI: https://doi.org/10.48550/arxiv.2506.21328
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: