Key points are not available for this paper at this time.
A difusão mascarada (ou absorvente) está sendo explorada ativamente como uma alternativa aos modelos autoregressivos para modelagem generativa de dados discretos. No entanto, trabalhos existentes nessa área foram dificultados por formulações de modelo desnecessariamente complexas e relações pouco claras entre diferentes perspectivas, levando a parametrizações, objetivos de treinamento e ajustes ad hoc subótimos para combater esses problemas. Neste trabalho, temos como objetivo fornecer uma estrutura simples e geral que desbloqueia todo o potencial dos modelos de difusão mascarada. Demonstramos que o objetivo variacional em tempo contínuo dos modelos de difusão mascarada é um simples integral ponderado das perdas de entropia cruzada. Nossa estrutura também possibilita o treinamento de modelos generalizados de difusão mascarada com cronogramas de mascaramento dependentes do estado. Avaliados pela perplexidade, nossos modelos treinados no OpenWebText superam modelos de difusão linguística anteriores em escala GPT-2 e demonstram desempenho superior em 4 de 5 tarefas de modelagem linguística zero-shot. Além disso, nossos modelos superam vastamente modelos de difusão discreta anteriores na modelagem de imagens em nível de pixel, atingindo 2,78 (CIFAR-10) e 3,42 (ImageNet 64x64) bits por dimensão, valores comparáveis ou melhores do que modelos autoregressivos de tamanhos similares.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiaxin Shi
Kehang Han
Zhe Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Shi et al. (Qui,) estudaram esta questão.
www.synapsesocial.com/papers/68e65e3eb6db6435875ecf67 — DOI: https://doi.org/10.48550/arxiv.2406.04329
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: