Key points are not available for this paper at this time.
Ao decompor o processo de formação da imagem em uma aplicação sequencial de autoencoders de denoising, os modelos de difusão (DMs) alcançam resultados de síntese de estado-da-arte em dados de imagem e além. Além disso, sua formulação permite um mecanismo de orientação para controlar o processo de geração de imagem sem a necessidade de re-treinamento. No entanto, como esses modelos normalmente operam diretamente no espaço de pixels, a otimização de DMs poderosos frequentemente consome centenas de dias de GPU e a inferência é dispendiosa devido a avaliações sequenciais. Para viabilizar o treinamento de DMs com recursos computacionais limitados, mantendo sua qualidade e flexibilidade, aplicamos eles no espaço latente de autoencoders pré-treinados poderosos. Em contraste com trabalhos anteriores, treinar modelos de difusão nessa representação permite pela primeira vez alcançar um ponto quase ótimo entre redução de complexidade e preservação de detalhes, aumentando significativamente a fidelidade visual. Ao introduzir camadas de cross-attention na arquitetura do modelo, transformamos modelos de difusão em geradores poderosos e flexíveis para entradas condicionais gerais, como texto ou caixas delimitadoras, e a síntese em alta resolução torna-se possível de forma convolucional. Nossos modelos de difusão latente (LDMs) atingem novos escores de estado-da-arte para restauração de imagens (image inpainting) e síntese de imagem condicional por classes, e desempenho altamente competitivo em várias tarefas, incluindo geração incondicional de imagens, síntese de texto-para-imagem e super-resolução, enquanto reduzem significativamente os requisitos computacionais em comparação aos DMs baseados em pixels.
Building similarity graph...
Analyzing shared references across papers
Loading...
Robin Rombach
Andreas Blattmann
Dominik Lorenz
Heidelberg University
Ludwig-Maximilians-Universität München
Building similarity graph...
Analyzing shared references across papers
Loading...
Rombach et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/693c44d17e21e2ddd5c9e2dc — DOI: https://doi.org/10.1109/cvpr52688.2022.01042