Key points are not available for this paper at this time.
近年のテキストから画像へのカスタマイズ研究は、少数の例で拡散モデルをファインチューニングすることで、特定の概念の画像生成に成功しています。しかし、これらの方法は概念に過剰適合しやすく、複数の条件下で概念を正しく生成できない(例:「ヘッドフォンを着用した犬」を生成するときにヘッドフォンが欠落する)問題があります。興味深いことに、ファインチューニング前のベースモデルは、基礎概念と他の要素(例:「ヘッドフォンを着た犬」)を合成する能力を示し、この合成能力はパーソナライズチューニング後にのみ失われていることが示唆されます。この観察に着想を得て、我々はClassDiffusionを提案します。これは新しい概念学習時に概念空間を明示的に調整するためのセマンティック保存損失を活用する単純な手法です。そのシンプルさにもかかわらず、ターゲット概念のファインチューニング時のセマンティックドリフトを回避します。広範な定性的および定量的実験で、セマンティック保存損失の使用がファインチューニューモデルの合成能力を効果的に改善することを示しています。CLIP-T指標の効果的でない評価に応じて、この特定ドメインにおけるより公平かつ有効な評価指標であるBLIP2-T指標を導入しました。また、提案損失の役割をよりよく理解するために詳細な実証研究と理論分析を行いました。最後に、ClassDiffusionをパーソナライズド動画生成にも拡張し、その柔軟性を示しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiannan Huang
Jun Hao Liew
Hanshu Yan
Building similarity graph...
Analyzing shared references across papers
Loading...
Huangら(Mon,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e68593b6db64358760dfd5 — DOI: https://doi.org/10.48550/arxiv.2405.17532
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: