Key points are not available for this paper at this time.
Jüngste Arbeiten zur Text-zu-Bild-Anpassung haben sich als erfolgreich erwiesen, indem sie Bilder vorgegebener Konzepte durch Feinabstimmung der Diffusionsmodelle an wenigen Beispielen generieren. Diese Methoden neigen jedoch zu Überanpassung der Konzepte, was dazu führt, dass das Konzept unter verschiedenen Bedingungen nicht korrekt erzeugt wird (z. B. fehlt der Kopfhörer bei der Generierung eines "Hundes mit Kopfhörer"). Interessanterweise zeigt das Basismodell vor der Feinabstimmung die Fähigkeit, das Basiskonzept mit anderen Elementen zu kombinieren (z. B. ein Hund mit Kopfhörer), was darauf hindeutet, dass die kompositorische Fähigkeit erst nach dem Personalisierungstuning verschwindet. Inspiriert von dieser Beobachtung präsentieren wir ClassDiffusion, eine einfache Methode, die einen semantischen Erhaltungsschaden nutzt, um den Konzeptbereich beim Erlernen des neuen Konzepts explizit zu regulieren. Trotz seiner Einfachheit hilft dies, semantische Drift bei der Feinabstimmung auf Zielkonzepte zu vermeiden. Umfangreiche qualitative und quantitative Experimente zeigen, dass die Verwendung des semantischen Erhaltungsschadens die kompositorischen Fähigkeiten der feinabgestimmten Modelle effektiv verbessert. Als Reaktion auf die ineffektive Evaluierung der CLIP-T-Metriken führen wir die BLIP2-T-Metrik ein, eine gerechtere und effektivere Bewertungsmetrik für diesen speziellen Bereich. Wir bieten auch eine tiefgehende empirische Studie und theoretische Analyse, um die Rolle des vorgeschlagenen Schadens besser zu verstehen. Schließlich erweitern wir ClassDiffusion ebenfalls auf die personalisierte Videogenerierung, um dessen Flexibilität zu demonstrieren.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiannan Huang
Jun Hao Liew
Hanshu Yan
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang et al. (Mon,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e68593b6db64358760dfd5 — DOI: https://doi.org/10.48550/arxiv.2405.17532
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: