Mixture-of-Experts (MoE) tornou-se uma arquitetura dominante para escalar Grandes Modelos de Linguagem (LLMs) de forma eficiente ao desacoplar os parâmetros totais do custo computacional. Entretanto, esse desacoplamento cria um desafio crítico: prever a capacidade do modelo para uma dada configuração de MoE (por exemplo, razão de ativação dos especialistas e granularidade) permanece um problema não resolvido. Para preencher essa lacuna, introduzimos a Alavancagem de Eficiência (Efficiency Leverage - EL), uma métrica que quantifica a vantagem computacional de um modelo MoE sobre um equivalente denso. Realizamos um estudo empírico em larga escala, treinando mais de 300 modelos com até 28B parâmetros, para investigar sistematicamente a relação entre as configurações arquiteturais do MoE e a EL. Nossas descobertas revelam que a EL é principalmente influenciada pela razão de ativação dos especialistas e o orçamento computacional total, ambos seguindo leis de potência previsíveis, enquanto a granularidade dos especialistas atua como um modulador não linear com um intervalo ótimo claro. Integramos essas descobertas em uma lei de escala unificada que prevê com precisão a EL de uma arquitetura MoE com base em sua configuração. Para validar as leis de escala derivadas, projetamos e treinamos o Ling-mini-beta, um modelo piloto para a série Ling-2.0 com apenas 0.85B parâmetros ativos, junto de um modelo denso de 6.1B para comparação. Quando treinados em um conjunto idêntico de 1T de tokens de alta qualidade, o Ling-mini-beta igualou a performance do modelo denso de 6.1B enquanto consumia mais de 7 vezes menos recursos computacionais, confirmando assim a precisão de nossas leis de escala. Este trabalho fornece uma base principiada e empiricamente fundamentada para a escalabilidade de modelos MoE eficientes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Changxin Tian
Kunlong Chen
Jia Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Tian et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/68f163c79903599108abcde4 — DOI: https://doi.org/10.48550/arxiv.2507.17702
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: