What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Das Distribuições de Pontuação ao Equilíbrio: Roteamento Plug-and-Play de Mistura de Especialistas

Key Points

O LASER melhora o balanceamento de carga durante a inferência, aumentando a eficiência do sistema e reduzindo a latência.
O método mantém a precisão enquanto otimiza o throughput, crucial para aplicações em tempo real.
Utilizando uma abordagem plug-and-play, o LASER se integra facilmente aos modelos existentes, facilitando benefícios imediatos sem necessidade de retreinamento.
A avaliação nos modelos Mixtral-8x7B e DeepSeek-MoE-16b-chat demonstra melhorias significativas de desempenho em diversos conjuntos de dados.

Abstract

Modelos de Mistura de Especialistas (MoE) podem escalar a capacidade de parâmetros roteando cada token para um subconjunto de especialistas através de uma função de porta aprendida. Embora o roteamento condicional reduza os custos de treinamento, ele transfere o ônus para a memória durante a inferência: parâmetros e ativações dos especialistas consomem memória, limitando o número de especialistas por dispositivo. À medida que os tokens são roteados, alguns especialistas ficam sobrecarregados enquanto outros são subutilizados. Como os especialistas são mapeados para GPUs, esse desequilíbrio se traduz diretamente em desempenho degradado do sistema em termos de latência, throughput e custo. Apresentamos o LASER, um algoritmo de roteamento plug-and-play para tempo de inferência que equilibra a carga enquanto preserva a precisão. O LASER se adapta ao formato da distribuição de pontuações da porta. Quando as pontuações indicam uma preferência clara, roteia para os especialistas mais fortes; quando as pontuações são mais uniformes, amplia o conjunto de especialistas viáveis e roteia para os menos carregados entre eles. Como o LASER depende apenas das pontuações da porta de um modelo treinado, ele se integra diretamente aos pipelines de inferência MoE existentes sem necessidade de retreinamento ou ajuste fino. Avaliamos o LASER nos modelos Mixtral-8x7B e DeepSeek-MoE-16b-chat em quatro conjuntos de dados (ARC-Easy, ARC-Challenge, MMLU e GSM8K). O LASER melhora o balanceamento de carga, traduzindo-se em menor latência e maior throughput, mantendo as mudanças na precisão desprezíveis.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rana Shahout

Chao Cai

Yilun Du

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Das Distribuições de Pontuação ao Equilíbrio: Roteamento Plug-and-Play de Mistura de Especialistas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study