June 1, 2022

Síntese de Imagem de Alta Resolução com Modelos de Difusão Latente

Key Points

Key points are not available for this paper at this time.

Abstract

Ao decompor o processo de formação da imagem em uma aplicação sequencial de autoencoders de denoising, os modelos de difusão (DMs) alcançam resultados de síntese de estado-da-arte em dados de imagem e além. Além disso, sua formulação permite um mecanismo de orientação para controlar o processo de geração de imagem sem a necessidade de re-treinamento. No entanto, como esses modelos normalmente operam diretamente no espaço de pixels, a otimização de DMs poderosos frequentemente consome centenas de dias de GPU e a inferência é dispendiosa devido a avaliações sequenciais. Para viabilizar o treinamento de DMs com recursos computacionais limitados, mantendo sua qualidade e flexibilidade, aplicamos eles no espaço latente de autoencoders pré-treinados poderosos. Em contraste com trabalhos anteriores, treinar modelos de difusão nessa representação permite pela primeira vez alcançar um ponto quase ótimo entre redução de complexidade e preservação de detalhes, aumentando significativamente a fidelidade visual. Ao introduzir camadas de cross-attention na arquitetura do modelo, transformamos modelos de difusão em geradores poderosos e flexíveis para entradas condicionais gerais, como texto ou caixas delimitadoras, e a síntese em alta resolução torna-se possível de forma convolucional. Nossos modelos de difusão latente (LDMs) atingem novos escores de estado-da-arte para restauração de imagens (image inpainting) e síntese de imagem condicional por classes, e desempenho altamente competitivo em várias tarefas, incluindo geração incondicional de imagens, síntese de texto-para-imagem e super-resolução, enquanto reduzem significativamente os requisitos computacionais em comparação aos DMs baseados em pixels.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Robin Rombach

Andreas Blattmann

Dominik Lorenz

Actions

Institutions

Heidelberg University

Ludwig-Maximilians-Universität München

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Síntese de Imagem de Alta Resolução com Modelos de Difusão Latente

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study