专家混合(MoE)模型通过一个学习门控函数将每个标记路由到专家子集,从而扩展参数容量。条件路由虽然降低了训练成本,但将负担转移到了推理内存上:专家参数和激活消耗内存,限制了每个设备上的专家数量。由于标记被路由,部分专家过载而另一些则利用不足。由于专家映射到GPU,这种不平衡直接导致延迟、吞吐量和成本方面的系统性能下降。我们提出了LASER,一种即插即用的推理时路由算法,在保持准确性的同时平衡负载。LASER适应门控得分分布的形态。当得分表现出明显偏好时,它路由到最强的专家;当得分较为均匀时,它扩大可行专家的集合,并路由到其中负载最轻的专家。由于LASER仅依赖于训练模型的门控得分,因此它可以直接集成到现有的MoE推理流程中,无需重新训练或微调。我们在Mixtral-8x7B和DeepSeek-MoE-16b-chat模型上,通过四个数据集(ARC-Easy、ARC-Challenge、MMLU和GSM8K)评估了LASER。LASER改善了负载平衡,从而降低了延迟并提升了吞吐量,同时保持准确性变化微乎其微。
Building similarity graph...
Analyzing shared references across papers
Loading...
Rana Shahout
Chao Cai
Yilun Du
Building similarity graph...
Analyzing shared references across papers
Loading...
Shahout等人(Mon,)研究了该问题。
www.synapsesocial.com/papers/68e861b07ef2f04ca37e4b96 — DOI: https://doi.org/10.48550/arxiv.2510.03293