Modelos grandes recentes de linguagem, como Gemini-1.5, DeepSeek-V3 e Llama-4, adotam cada vez mais arquiteturas de Mistura de Especialistas (MoE), que oferecem fortes compensações entre eficiência e desempenho ao ativar apenas uma fração do modelo por token. No entanto, pesquisadores acadêmicos ainda carecem de uma plataforma MoE totalmente aberta e completa para investigar escalabilidade, roteamento e comportamento dos especialistas. Lançamos o FLAME-MoE, um conjunto de pesquisa completamente open-source composto por sete modelos somente com decodificador, variando de 38M a 1,7B parâmetros ativos, cuja arquitetura—64 especialistas com gating top-8 e 2 especialistas compartilhados—reflete de perto os LLMs modernos de produção. Todos os pipelines de dados de treinamento, scripts, logs e checkpoints estão disponíveis publicamente para possibilitar experimentação reprodutível. Em seis tarefas de avaliação, o FLAME-MoE melhora a acurácia média em até 3,4 pontos em relação às linhas de base densas treinadas com FLOPs idênticos. Aproveitando a transparência completa do histórico de treinamento, apresentamos análises iniciais que mostram que (i) os especialistas se especializam cada vez mais em subconjuntos distintos de tokens, (ii) as matrizes de co-ativação permanecem esparsas, refletindo o uso diverso dos especialistas, e (iii) o comportamento de roteamento se estabiliza no início do treinamento. Todo o código, logs de treinamento e checkpoints do modelo estão disponíveis em https://github.com/cmu-flame/FLAME-MoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Kang
Zichun Yu
Chenyan Xiong
Building similarity graph...
Analyzing shared references across papers
Loading...
Kang et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68dc12cc8a7d58c25ebb0b02 — DOI: https://doi.org/10.48550/arxiv.2505.20225
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: