Key points are not available for this paper at this time.
최근 텍스트-이미지 맞춤화 연구들은 몇 가지 예시로 확산 모델을 미세 조정하여 주어진 개념의 이미지를 생성하는 데 성공을 입증했다. 그러나 이러한 방법들은 개념에 과적합되는 경향이 있어 여러 조건 하에서 개념을 생성하는 데 실패한다(예: '헤드폰을 쓴 개' 생성 시 헤드폰이 누락되는 현상). 흥미롭게도, 미세 조정 전의 기본 모델은 기본 개념과 다른 요소를 조합할 수 있는 능력(예: 헤드폰을 쓴 개)을 가지고 있음을 확인했으며, 이는 개인화 튜닝 이후에만 조합 능력이 사라짐을 시사한다. 이 관찰에서 영감을 받아, 새로운 개념을 학습할 때 개념 공간을 명확히 조절하기 위한 의미 보존 손실을 활용하는 간단한 기법인 ClassDiffusion을 제안한다. 이 기법은 단순함에도 불구하고 타겟 개념을 미세 조정할 때 의미적 드리프트를 방지하는 데 도움을 준다. 광범위한 정성적·정량적 실험 결과, 의미 보존 손실의 사용이 미세 조정 모델의 조합 능력을 효과적으로 향상시킴을 보여준다. 비효율적인 CLIP-T 평가 지표에 대응하여, 이 특정 도메인에서 보다 공평하고 효과적인 평가 지표인 BLIP2-T 지표도 도입한다. 또한 제안된 손실의 역할을 더 잘 이해하기 위해 심층 실증 연구와 이론적 분석도 제공한다. 마지막으로, ClassDiffusion을 개인화된 비디오 생성으로 확장하여 그 유연성을 입증한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiannan Huang
Jun Hao Liew
Hanshu Yan
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang 등(Mon,)이 이 질문을 연구했다.
www.synapsesocial.com/papers/68e68593b6db64358760dfd5 — DOI: https://doi.org/10.48550/arxiv.2405.17532