Modelos de Mistura de Especialistas (MoE) podem escalar a capacidade de parâmetros roteando cada token para um subconjunto de especialistas através de uma função de porta aprendida. Embora o roteamento condicional reduza os custos de treinamento, ele transfere o ônus para a memória durante a inferência: parâmetros e ativações dos especialistas consomem memória, limitando o número de especialistas por dispositivo. À medida que os tokens são roteados, alguns especialistas ficam sobrecarregados enquanto outros são subutilizados. Como os especialistas são mapeados para GPUs, esse desequilíbrio se traduz diretamente em desempenho degradado do sistema em termos de latência, throughput e custo. Apresentamos o LASER, um algoritmo de roteamento plug-and-play para tempo de inferência que equilibra a carga enquanto preserva a precisão. O LASER se adapta ao formato da distribuição de pontuações da porta. Quando as pontuações indicam uma preferência clara, roteia para os especialistas mais fortes; quando as pontuações são mais uniformes, amplia o conjunto de especialistas viáveis e roteia para os menos carregados entre eles. Como o LASER depende apenas das pontuações da porta de um modelo treinado, ele se integra diretamente aos pipelines de inferência MoE existentes sem necessidade de retreinamento ou ajuste fino. Avaliamos o LASER nos modelos Mixtral-8x7B e DeepSeek-MoE-16b-chat em quatro conjuntos de dados (ARC-Easy, ARC-Challenge, MMLU e GSM8K). O LASER melhora o balanceamento de carga, traduzindo-se em menor latência e maior throughput, mantendo as mudanças na precisão desprezíveis.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rana Shahout
Chao Cai
Yilun Du
Building similarity graph...
Analyzing shared references across papers
Loading...
Shahout et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e861b07ef2f04ca37e4b96 — DOI: https://doi.org/10.48550/arxiv.2510.03293