Este artigo apresenta o LLaDA2.0 -- um conjunto de grandes modelos de linguagem por difusão discretos (dLLM) escalando até 100B de parâmetros totais por meio da conversão sistemática de modelos auto-regressivos (AR) -- estabelecendo um novo paradigma para implantação em escala de ponta. Em vez de um treinamento custoso do zero, o LLaDA2.0 mantém herança de conhecimento, adaptação progressiva e princípio de design consciente de eficiência, e converte perfeitamente um modelo AR pré-treinado em dLLM com um novo esquema de treinamento em 3 fases baseado em WSD ao nível de bloco: aumento progressivo do tamanho do bloco na difusão em bloco (aquecimento), difusão em sequência completa em grande escala (estável) e retorno à difusão em bloco de tamanho compacto (decaimento). Junto com o alinhamento pós-treinamento com SFT e DPO, obtemos LLaDA2.0-mini (16B) e LLaDA2.0-flash (100B), duas variantes Mixture-of-Experts (MoE) ajustadas por instrução e otimizadas para implantação prática. Preservando as vantagens da decodificação paralela, esses modelos entregam desempenho e eficiência superiores na escala de ponta. Ambos os modelos foram liberados como código aberto.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tiwei Bie
Meng Cao
Kun Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Bie et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/69488bc877063b71e748ceaa — DOI: https://doi.org/10.48550/arxiv.2512.15745
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: