Apresentamos o LLaDA-MoE, um grande modelo de linguagem de difusão com arquitetura Mixture-of-Experts (MoE), treinado do zero em aproximadamente 20T tokens. O LLaDA-MoE alcança desempenho competitivo com sobrecarga computacional significativamente reduzida ao manter uma capacidade de 7B parâmetros enquanto ativa apenas 1.4B parâmetros durante a inferência. Nossa avaliação empírica revela que o LLaDA-MoE alcança desempenho de última geração entre os modelos de linguagem de difusão com parâmetros maiores, superando os modelos anteriores LLaDA, LLaDA 1.5 e Dream em vários benchmarks. O modelo ajustado para instruções LLaDA-MoE-7B-A1B-Instruct demonstra capacidades comparáveis ao Qwen2.5-3B-Instruct em compreensão de conhecimento, geração de código, raciocínio matemático, tarefas de agente e alinhamento, apesar de usar menos parâmetros ativos. Nossos resultados mostram que integrar uma arquitetura MoE esparsa ao objetivo de treinamento de modelos de linguagem de difusão mascarados ainda revela as forças do MoE sob inferência eficiente com poucos parâmetros ativos, além de abrir amplo espaço para exploração adicional de modelos de linguagem de difusão. Os modelos LLaDA-MoE estão disponíveis na Huggingface.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fengqi Zhu
Zebin You
Yi Xing
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68f5fcce8d54a28a75cf1c23 — DOI: https://doi.org/10.48550/arxiv.2509.24389
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: