June 6, 2024Open Access

Difusão Mascada Simplificada e Generalizada para Dados Discretos

Key Points

Key points are not available for this paper at this time.

Abstract

A difusão mascarada (ou absorvente) está sendo explorada ativamente como uma alternativa aos modelos autoregressivos para modelagem generativa de dados discretos. No entanto, trabalhos existentes nessa área foram dificultados por formulações de modelo desnecessariamente complexas e relações pouco claras entre diferentes perspectivas, levando a parametrizações, objetivos de treinamento e ajustes ad hoc subótimos para combater esses problemas. Neste trabalho, temos como objetivo fornecer uma estrutura simples e geral que desbloqueia todo o potencial dos modelos de difusão mascarada. Demonstramos que o objetivo variacional em tempo contínuo dos modelos de difusão mascarada é um simples integral ponderado das perdas de entropia cruzada. Nossa estrutura também possibilita o treinamento de modelos generalizados de difusão mascarada com cronogramas de mascaramento dependentes do estado. Avaliados pela perplexidade, nossos modelos treinados no OpenWebText superam modelos de difusão linguística anteriores em escala GPT-2 e demonstram desempenho superior em 4 de 5 tarefas de modelagem linguística zero-shot. Além disso, nossos modelos superam vastamente modelos de difusão discreta anteriores na modelagem de imagens em nível de pixel, atingindo 2,78 (CIFAR-10) e 3,42 (ImageNet 64x64) bits por dimensão, valores comparáveis ou melhores do que modelos autoregressivos de tamanhos similares.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiaxin Shi

Kehang Han

Zhe Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Difusão Mascada Simplificada e Generalizada para Dados Discretos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider