What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

从得分分布到负载均衡：即插即用的专家混合路由

Key Points

LASER在推理过程中增强负载平衡，提高系统效率并减少延迟。
该方法在优化吞吐量的同时保持准确性，对实时应用至关重要。
采用即插即用方法，LASER可轻松集成到现有模型中，无需重新训练即可带来即时效益。
在Mixtral-8x7B和DeepSeek-MoE-16b-chat上的评估显示，在多个数据集上实现显著性能提升。

Abstract

专家混合（MoE）模型通过一个学习门控函数将每个标记路由到专家子集，从而扩展参数容量。条件路由虽然降低了训练成本，但将负担转移到了推理内存上：专家参数和激活消耗内存，限制了每个设备上的专家数量。由于标记被路由，部分专家过载而另一些则利用不足。由于专家映射到GPU，这种不平衡直接导致延迟、吞吐量和成本方面的系统性能下降。我们提出了LASER，一种即插即用的推理时路由算法，在保持准确性的同时平衡负载。LASER适应门控得分分布的形态。当得分表现出明显偏好时，它路由到最强的专家；当得分较为均匀时，它扩大可行专家的集合，并路由到其中负载最轻的专家。由于LASER仅依赖于训练模型的门控得分，因此它可以直接集成到现有的MoE推理流程中，无需重新训练或微调。我们在Mixtral-8x7B和DeepSeek-MoE-16b-chat模型上，通过四个数据集（ARC-Easy、ARC-Challenge、MMLU和GSM8K）评估了LASER。LASER改善了负载平衡，从而降低了延迟并提升了吞吐量，同时保持准确性变化微乎其微。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rana Shahout

Chao Cai

Yilun Du

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

从得分分布到负载均衡：即插即用的专家混合路由

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study