Key points are not available for this paper at this time.
Jüngste Fortschritte in der kontrollierbaren menschlichen Bildgenerierung haben zu Zero-Shot-Generierung unter Verwendung struktureller Signale (z. B. Pose, Tiefe) oder des Gesichtsauftretens geführt. Dennoch bleibt die Erzeugung menschlicher Bilder, die an mehrere Teile des menschlichen Aussehens gebunden sind, herausfordernd. Zur Lösung dieses Problems stellen wir Parts2Whole vor, ein neuartiges Framework zur Erzeugung maßgeschneiderter Porträts aus mehreren Referenzbildern, einschließlich Pose-Bildern und verschiedenen Aspekten des menschlichen Erscheinungsbildes. Dazu entwickeln wir zunächst einen semantisch bewussten Appearance-Encoder, der Details verschiedener menschlicher Teile bewahrt, indem er jedes Bild basierend auf seinem Textlabel in eine Serie von Multi-Skalen-Feature-Maps anstelle eines einzelnen Bildtokens verarbeitet und so die Bilddimension erhält. Zweitens unterstützt unser Framework die Generierung mit mehreren Bildern als Bedingung durch einen gemeinsamen Selbstaufmerksamkeitsmechanismus, der während des Diffusionsprozesses über Referenz- und Zielmerkmale hinweg operiert. Wir verbessern den Standard-Aufmerksamkeitsmechanismus durch Einbeziehung von Maskeninformationen aus den referenzierten menschlichen Bildern, was eine präzise Auswahl beliebiger Teile ermöglicht. Umfangreiche Experimente zeigen die Überlegenheit unseres Ansatzes gegenüber bestehenden Alternativen und bieten erweiterte Möglichkeiten zur kontrollierbaren Anpassung menschlicher Bilder mit mehreren Teilen. Siehe unsere Projektseite unter https://huanngzh.github.io/Parts2Whole/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zehuan Huang
Hongxing Fan
Lipeng Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang et al. (Di,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e6e09eb6db64358765c4e2 — DOI: https://doi.org/10.48550/arxiv.2404.15267
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: