What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

Rumo a Maior Alavancagem: Leis de Escala para Modelos de Linguagem Mixture-of-Experts Eficientes

Key Points

Métrica de alavancagem de eficiência quantifica a vantagem computacional de modelos mixture-of-experts sobre equivalentes densos.
Descobertas indicam que a razão de ativação dos especialistas e o orçamento computacional seguem leis de potência previsíveis que afetam a alavancagem.
Modelo Ling-mini-beta com 0.85B parâmetros ativos igualou a performance de um modelo denso de 6.1B com menor uso de recursos.
Lei de escala unificada prevê com precisão a alavancagem de eficiência baseada nas configurações mixture-of-experts.

Abstract

Mixture-of-Experts (MoE) tornou-se uma arquitetura dominante para escalar Grandes Modelos de Linguagem (LLMs) de forma eficiente ao desacoplar os parâmetros totais do custo computacional. Entretanto, esse desacoplamento cria um desafio crítico: prever a capacidade do modelo para uma dada configuração de MoE (por exemplo, razão de ativação dos especialistas e granularidade) permanece um problema não resolvido. Para preencher essa lacuna, introduzimos a Alavancagem de Eficiência (Efficiency Leverage - EL), uma métrica que quantifica a vantagem computacional de um modelo MoE sobre um equivalente denso. Realizamos um estudo empírico em larga escala, treinando mais de 300 modelos com até 28B parâmetros, para investigar sistematicamente a relação entre as configurações arquiteturais do MoE e a EL. Nossas descobertas revelam que a EL é principalmente influenciada pela razão de ativação dos especialistas e o orçamento computacional total, ambos seguindo leis de potência previsíveis, enquanto a granularidade dos especialistas atua como um modulador não linear com um intervalo ótimo claro. Integramos essas descobertas em uma lei de escala unificada que prevê com precisão a EL de uma arquitetura MoE com base em sua configuração. Para validar as leis de escala derivadas, projetamos e treinamos o Ling-mini-beta, um modelo piloto para a série Ling-2.0 com apenas 0.85B parâmetros ativos, junto de um modelo denso de 6.1B para comparação. Quando treinados em um conjunto idêntico de 1T de tokens de alta qualidade, o Ling-mini-beta igualou a performance do modelo denso de 6.1B enquanto consumia mais de 7 vezes menos recursos computacionais, confirmando assim a precisão de nossas leis de escala. Este trabalho fornece uma base principiada e empiricamente fundamentada para a escalabilidade de modelos MoE eficientes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Changxin Tian

Kunlong Chen

Jia Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Rumo a Maior Alavancagem: Leis de Escala para Modelos de Linguagem Mixture-of-Experts Eficientes

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider