What question did this study set out to answer?

Desenvolver o LLaDA2.0, um grande modelo de linguagem com 100 bilhões de parâmetros, utilizando processos inovadores de adaptação.

December 22, 2025Open Access

LLaDA2.0: Escalando Modelos de Linguagem por Difusão para 100B

Key Points

Desenvolver o LLaDA2.0, um grande modelo de linguagem com 100 bilhões de parâmetros, utilizando processos inovadores de adaptação.
Conversão de modelos auto-regressivos para modelos por difusão
Implementação de esquemas de treinamento ao nível de bloco usando uma abordagem em 3 fases
Liberação em código aberto das variantes LLaDA2.0-mini e LLaDA2.0-flash
Modelos LLaDA2.0 alcançaram com sucesso a escalabilidade para 100B parâmetros
Demonstraram melhora na eficiência de implantação
Preservaram vantagens da decodificação paralela

Abstract

Este artigo apresenta o LLaDA2.0 -- um conjunto de grandes modelos de linguagem por difusão discretos (dLLM) escalando até 100B de parâmetros totais por meio da conversão sistemática de modelos auto-regressivos (AR) -- estabelecendo um novo paradigma para implantação em escala de ponta. Em vez de um treinamento custoso do zero, o LLaDA2.0 mantém herança de conhecimento, adaptação progressiva e princípio de design consciente de eficiência, e converte perfeitamente um modelo AR pré-treinado em dLLM com um novo esquema de treinamento em 3 fases baseado em WSD ao nível de bloco: aumento progressivo do tamanho do bloco na difusão em bloco (aquecimento), difusão em sequência completa em grande escala (estável) e retorno à difusão em bloco de tamanho compacto (decaimento). Junto com o alinhamento pós-treinamento com SFT e DPO, obtemos LLaDA2.0-mini (16B) e LLaDA2.0-flash (100B), duas variantes Mixture-of-Experts (MoE) ajustadas por instrução e otimizadas para implantação prática. Preservando as vantagens da decodificação paralela, esses modelos entregam desempenho e eficiência superiores na escala de ponta. Ambos os modelos foram liberados como código aberto.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tiwei Bie

Meng Cao

Kun Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLaDA2.0: Escalando Modelos de Linguagem por Difusão para 100B

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider