What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

基于自适应专家权重的MoE动态路由负载均衡方案

Key Points

所提方法在MNLI数据集上将负载标准差从12.25降低至1.18，提升了性能。
该动态路由策略在每一步后调整专家权重，有效平衡负载。
在自然语言理解基准上的实验表明准确率与top-2路由相当。
该方法直接在路由层面缓解负载不均，避免了与梯度相关的问题。

Abstract

负载不均衡是训练混合专家模型（MoE）中的主要性能瓶颈，因为专家负载不平衡可能导致路由崩溃。现有大多数方法通过引入辅助损失函数来平衡负载；然而，这些损失函数中的超参数往往需要针对不同任务进行调节。此外，激活专家数量的增加往往会加剧负载不均衡，而固定激活数又可能降低模型处理复杂任务的信心。为解决这些挑战，本文提出了一种利用基于阈值的动态路由算法的动态平衡路由策略。每次路由步骤后，该方法调整专家权重以影响后续路由中的负载分布。不同于基于损失函数的平衡方法，我们的方法直接作用于路由层面，避免了可能降低模型质量的梯度扰动，同时动态路由实现了计算资源的更高效利用。在自然语言理解（NLU）基准上的实验表明，所提方法在准确率上可与top-2路由相媲美，同时显著降低了负载标准差（例如，在MNLI数据集上从12.25降至1.18）。此外，基于阈值的动态专家激活减少了模型参数，为缓解专家负载不均提供了新的视角。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jialin Wen

Xiaojun Li

Junping Yao

Journals

Frontiers in Neurorobotics

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

基于自适应专家权重的MoE动态路由负载均衡方案

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider