What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

LLaDA-MoE: Um Modelo de Linguagem de Difusão MoE Esparso

Key Points

LLaDA-MoE demonstra desempenho competitivo entre modelos de difusão, utilizando menos parâmetros ativos durante a inferência.
Com uma capacidade de 7B parâmetros, o LLaDA-MoE ativa apenas 1.4B parâmetros, reduzindo eficazmente a sobrecarga computacional.
O modelo supera benchmarks anteriores, comprovando a eficácia de uma arquitetura MoE esparsa no treinamento de modelos de linguagem.
A avaliação empírica destaca as capacidades do LLaDA-MoE em compreensão de conhecimento e tarefas de geração de código.

Abstract

Apresentamos o LLaDA-MoE, um grande modelo de linguagem de difusão com arquitetura Mixture-of-Experts (MoE), treinado do zero em aproximadamente 20T tokens. O LLaDA-MoE alcança desempenho competitivo com sobrecarga computacional significativamente reduzida ao manter uma capacidade de 7B parâmetros enquanto ativa apenas 1.4B parâmetros durante a inferência. Nossa avaliação empírica revela que o LLaDA-MoE alcança desempenho de última geração entre os modelos de linguagem de difusão com parâmetros maiores, superando os modelos anteriores LLaDA, LLaDA 1.5 e Dream em vários benchmarks. O modelo ajustado para instruções LLaDA-MoE-7B-A1B-Instruct demonstra capacidades comparáveis ao Qwen2.5-3B-Instruct em compreensão de conhecimento, geração de código, raciocínio matemático, tarefas de agente e alinhamento, apesar de usar menos parâmetros ativos. Nossos resultados mostram que integrar uma arquitetura MoE esparsa ao objetivo de treinamento de modelos de linguagem de difusão mascarados ainda revela as forças do MoE sob inferência eficiente com poucos parâmetros ativos, além de abrir amplo espaço para exploração adicional de modelos de linguagem de difusão. Os modelos LLaDA-MoE estão disponíveis na Huggingface.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fengqi Zhu

Zebin You

Yi Xing

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLaDA-MoE: Um Modelo de Linguagem de Difusão MoE Esparso

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider