Apresentamos difusões mascaradas auto-especulativas, uma nova classe de modelos generativos de difusão mascarada para dados discretos que exigem significativamente menos avaliações da função para gerar amostras. Modelos padrão de difusão mascarada prevêem logits fatorados sobre posições atualmente mascaradas. Um número de posições mascaradas é então amostrado; entretanto, a aproximação fatorada significa que amostrar muitas posições de uma vez leva a baixa qualidade da amostra. Como resultado, muitos passos de simulação e, portanto, avaliações da função da rede neural, são necessários para gerar dados de alta qualidade. Reduzimos a carga computacional gerando previsões não-fatoradas sobre posições mascaradas. Isso é alcançado modificando a máscara final de atenção do transformer de não-causal para causal, permitindo a geração de tokens provisórios e validação paralela por meio de um novo mecanismo especulativo integrado ao modelo para amostragem. Isso resulta em uma distribuição preditiva não-fatorada sobre posições mascaradas em uma única passagem direta. Aplicamos nosso método à modelagem de texto na escala GPT2 e geração de sequências proteicas, constatando que podemos alcançar uma redução aproximada de 2x no número requerido de passagens diretas da rede em relação aos modelos padrão de difusão mascarada.
Building similarity graph...
Analyzing shared references across papers
Loading...
Andrew Campbell
Valentin De Bortoli
Jiaxin Shi
Building similarity graph...
Analyzing shared references across papers
Loading...
Campbell et al. (sáb,) estudaram esta questão.
www.synapsesocial.com/papers/68e8ed7aa1d181ff1b9480fa — DOI: https://doi.org/10.48550/arxiv.2510.03929
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: