Los puntos clave no están disponibles para este artículo en este momento.
Proponemos Magic Clothing, una arquitectura de red basada en modelos de difusión latente (LDM) para una tarea inexplorada de síntesis de imágenes controlada por prendas. Con el objetivo de generar personajes personalizados que visten las prendas objetivo con diversos textos descriptivos, la controlabilidad de la imagen es el aspecto más crítico, es decir, preservar los detalles de la prenda y mantener la fidelidad a los textos descriptivos. Para ello, introducimos un extractor de prendas que captura las características detalladas de la prenda, y usamos fusión por autoatención para incorporarlas en los LDM preentrenados, asegurando que los detalles de la prenda permanezcan inalterados en el personaje objetivo. Luego, aprovechamos la guía conjunta sin clasificador para equilibrar el control de las características de la prenda y los textos descriptivos sobre los resultados generados. Mientras tanto, el extractor de prendas propuesto es un módulo enchufable aplicable a varios LDM afinados, y puede combinarse con otras extensiones como ControlNet e IP-Adapter para mejorar la diversidad y controlabilidad de los personajes generados. Además, diseñamos Matched-Points-LPIPS (MP-LPIPS), una métrica robusta para evaluar la consistencia de la imagen objetivo con la prenda fuente. Experimentos exhaustivos demuestran que nuestro Magic Clothing alcanza resultados de última generación bajo varios controles condicionales para la síntesis de imágenes controlada por prendas. Nuestro código fuente está disponible en https://github.com/ShineChen1024/MagicClothing.
Building similarity graph...
Analyzing shared references across papers
Loading...
Weifeng Chen
Tao Gu
Yuhao Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6f2aeb6db64358766da7a — DOI: https://doi.org/10.48550/arxiv.2404.09512
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: