What type of study is this?

This is a Experimental Study study.

September 30, 2025Open Access

FLAME-MoE: Uma Plataforma de Pesquisa Transparente e Completa para Modelos de Linguagem de Mistura de Especialistas

Key Points

FLAME-MoE mostra uma melhoria média de acurácia de até 3,4 pontos sobre linhas de base densas que utilizam FLOPs idênticos.
A plataforma aproveita a transparência completa do histórico de treinamento para investigar especialização dos especialistas e esparsidade de co-ativação.
A análise revela que os especialistas se tornam cada vez mais especializados em subconjuntos distintos de tokens durante o treinamento.
Material e logs de treinamento estão disponíveis publicamente, promovendo a reprodutibilidade na utilização da plataforma FLAME-MoE.

Abstract

Modelos grandes recentes de linguagem, como Gemini-1.5, DeepSeek-V3 e Llama-4, adotam cada vez mais arquiteturas de Mistura de Especialistas (MoE), que oferecem fortes compensações entre eficiência e desempenho ao ativar apenas uma fração do modelo por token. No entanto, pesquisadores acadêmicos ainda carecem de uma plataforma MoE totalmente aberta e completa para investigar escalabilidade, roteamento e comportamento dos especialistas. Lançamos o FLAME-MoE, um conjunto de pesquisa completamente open-source composto por sete modelos somente com decodificador, variando de 38M a 1,7B parâmetros ativos, cuja arquitetura—64 especialistas com gating top-8 e 2 especialistas compartilhados—reflete de perto os LLMs modernos de produção. Todos os pipelines de dados de treinamento, scripts, logs e checkpoints estão disponíveis publicamente para possibilitar experimentação reprodutível. Em seis tarefas de avaliação, o FLAME-MoE melhora a acurácia média em até 3,4 pontos em relação às linhas de base densas treinadas com FLOPs idênticos. Aproveitando a transparência completa do histórico de treinamento, apresentamos análises iniciais que mostram que (i) os especialistas se especializam cada vez mais em subconjuntos distintos de tokens, (ii) as matrizes de co-ativação permanecem esparsas, refletindo o uso diverso dos especialistas, e (iii) o comportamento de roteamento se estabiliza no início do treinamento. Todo o código, logs de treinamento e checkpoints do modelo estão disponíveis em https://github.com/cmu-flame/FLAME-MoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hao Kang

Zichun Yu

Chenyan Xiong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FLAME-MoE: Uma Plataforma de Pesquisa Transparente e Completa para Modelos de Linguagem de Mistura de Especialistas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider