Key points are not available for this paper at this time.
텍스트-투-이미지(TTI) 디퓨전 모델은 복잡하고 상상력이 풍부한 장면의 고해상도 이미지를 생성하는 데 놀라운 성과를 보였다. 최근 연구들은 소수의 샘플 이미지 일러스트레이션을 사용하여 사용자 일러스트 개념(예: 사용자 자신)을 통합할 수 있는 개인화 기법을 통해 이러한 방법을 확장하였다. 그러나 인간 주체와 같은 다중 상호작용 개념을 포함하거나, 하나 또는 여러 이미지 일러스트에서 얽혀 있을 수 있는 개념을 생성하는 능력은 아직 불분명하다. 본 연구에서는 이러한 핵심 문제를 해결하는 개념 기반 TTI 개인화 프레임워크를 제안한다. 우리는 사용자 일러스트 개념을 위한 맞춤형 토큰을 학습하여 TTI 모델 내 기존 텍스트 토큰과 상호작용할 수 있도록 하는 기존 연구를 기반으로 한다. 하지만 중요한 점은, 해당 개념을 분리하고 더 잘 학습하기 위해 사용자 제공 이미지 일러스트에서 개념을 분리하는 (잠재) 분할 마스크를 공동으로 학습한다는 것이다. 이를 위해 맞춤 토큰 학습과 사용자 제공 이미지 내 해당 개념을 포괄하는 마스크 추정을 번갈아 수행하는 기대 최대화(EM)와 유사한 최적화 절차를 도입하였다. 이러한 마스크는 U-Net으로 파라미터화된 잠재 디퓨전 모델 내의 교차 주의를 기반으로 하고, 이어진 Dense CRF 최적화를 통해 얻는다. 우리는 이러한 공동 반복 정제가 개념에 대한 더 나은 토큰 학습과 부수적으로 잠재 마스크 학습을 이끈다는 것을 보인다. 제안된 접근법의 이점은 다수의 예시와 최대 세 개 얽힌 개념을 결합할 수 있는 사용 사례를 통해 정성적 및 (사용자 연구를 통한) 정량적으로 입증한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tanzila Rahman
Shweta Mahajan
Hsin-Ying Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
Rahman 등(Sun,)이 이 문제를 연구하였다.
www.synapsesocial.com/papers/68e78b99b6db6435876fdc8d — DOI: https://doi.org/10.48550/arxiv.2402.11487
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: