Key points are not available for this paper at this time.
Wir schlagen Reference-Based Modulation (RB-Modulation) vor, eine neue Plug-and-Play-Lösung zur trainingsfreien Personalisierung von Diffusionsmodellen. Bestehende trainingsfreie Ansätze zeigen Schwierigkeiten bei (a) der Stilextraktion aus Referenzbildern ohne zusätzliche Stil- oder Inhaltsbeschreibung im Text, (b) unerwünschtem Inhaltsleck aus Stilreferenzbildern und (c) der effektiven Komposition von Stil und Inhalt. RB-Modulation basiert auf einem neuartigen stochastischen Optimalsteuerer, bei dem ein Stil-Deskriptor die gewünschten Attribute über eine Terminalkostenfunktion kodiert. Die daraus resultierende Drift überwindet nicht nur die genannten Schwierigkeiten, sondern gewährleistet auch eine hohe Treue zum Referenzstil und die Einhaltung des gegebenen Textprompts. Zudem führen wir ein auf Kreuz-Attention basierendes Merkmalsaggregationsschema ein, das RB-Modulation ermöglicht, Inhalt und Stil aus dem Referenzbild zu entkoppeln. Mit theoretischer Begründung und empirischen Nachweisen demonstriert unser Framework eine präzise Extraktion und Kontrolle von Inhalt und Stil auf trainingsfreie Weise. Darüber hinaus erlaubt unsere Methode eine nahtlose Komposition von Inhalt und Stil, was eine Abkehr von der Abhängigkeit von externen Adaptern oder ControlNets markiert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Litu Rout
Yujia Chen
Nataniel Ruiz
Building similarity graph...
Analyzing shared references across papers
Loading...
Rout et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e68593b6db64358760dfab — DOI: https://doi.org/10.48550/arxiv.2405.17401