负载不均衡是训练混合专家模型(MoE)中的主要性能瓶颈,因为专家负载不平衡可能导致路由崩溃。现有大多数方法通过引入辅助损失函数来平衡负载;然而,这些损失函数中的超参数往往需要针对不同任务进行调节。此外,激活专家数量的增加往往会加剧负载不均衡,而固定激活数又可能降低模型处理复杂任务的信心。为解决这些挑战,本文提出了一种利用基于阈值的动态路由算法的动态平衡路由策略。每次路由步骤后,该方法调整专家权重以影响后续路由中的负载分布。不同于基于损失函数的平衡方法,我们的方法直接作用于路由层面,避免了可能降低模型质量的梯度扰动,同时动态路由实现了计算资源的更高效利用。在自然语言理解(NLU)基准上的实验表明,所提方法在准确率上可与top-2路由相媲美,同时显著降低了负载标准差(例如,在MNLI数据集上从12.25降至1.18)。此外,基于阈值的动态专家激活减少了模型参数,为缓解专家负载不均提供了新的视角。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jialin Wen
Xiaojun Li
Junping Yao
Frontiers in Neurorobotics
Building similarity graph...
Analyzing shared references across papers
Loading...
Wen等(星期二,)研究了该问题。
www.synapsesocial.com/papers/68f0492fe559138a1a06de7e — DOI: https://doi.org/10.3389/fnbot.2025.1590994
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: