February 18, 2024Open Access

텍스트-투-이미지 디퓨전 모델을 이용한 시각 개념 기반 이미지 생성

Key Points

Key points are not available for this paper at this time.

Abstract

텍스트-투-이미지(TTI) 디퓨전 모델은 복잡하고 상상력이 풍부한 장면의 고해상도 이미지를 생성하는 데 놀라운 성과를 보였다. 최근 연구들은 소수의 샘플 이미지 일러스트레이션을 사용하여 사용자 일러스트 개념(예: 사용자 자신)을 통합할 수 있는 개인화 기법을 통해 이러한 방법을 확장하였다. 그러나 인간 주체와 같은 다중 상호작용 개념을 포함하거나, 하나 또는 여러 이미지 일러스트에서 얽혀 있을 수 있는 개념을 생성하는 능력은 아직 불분명하다. 본 연구에서는 이러한 핵심 문제를 해결하는 개념 기반 TTI 개인화 프레임워크를 제안한다. 우리는 사용자 일러스트 개념을 위한 맞춤형 토큰을 학습하여 TTI 모델 내 기존 텍스트 토큰과 상호작용할 수 있도록 하는 기존 연구를 기반으로 한다. 하지만 중요한 점은, 해당 개념을 분리하고 더 잘 학습하기 위해 사용자 제공 이미지 일러스트에서 개념을 분리하는 (잠재) 분할 마스크를 공동으로 학습한다는 것이다. 이를 위해 맞춤 토큰 학습과 사용자 제공 이미지 내 해당 개념을 포괄하는 마스크 추정을 번갈아 수행하는 기대 최대화(EM)와 유사한 최적화 절차를 도입하였다. 이러한 마스크는 U-Net으로 파라미터화된 잠재 디퓨전 모델 내의 교차 주의를 기반으로 하고, 이어진 Dense CRF 최적화를 통해 얻는다. 우리는 이러한 공동 반복 정제가 개념에 대한 더 나은 토큰 학습과 부수적으로 잠재 마스크 학습을 이끈다는 것을 보인다. 제안된 접근법의 이점은 다수의 예시와 최대 세 개 얽힌 개념을 결합할 수 있는 사용 사례를 통해 정성적 및 (사용자 연구를 통한) 정량적으로 입증한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tanzila Rahman

Shweta Mahajan

Hsin-Ying Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

텍스트-투-이미지 디퓨전 모델을 이용한 시각 개념 기반 이미지 생성

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider