April 9, 2024Open Access

비전-언어 모델의 앵커 기반 강건 미세조정

Key Points

Key points are not available for this paper at this time.

Abstract

우리는 비전-언어 모델의 out-of-distribution (OOD) 일반화를 저해하지 않고 미세조정(finetuning)을 수행하는 것을 목표로 한다. 우리는 두 가지 유형의 OOD 일반화를 다룬다: i) 자연 이미지에서 스케치 이미지로의 도메인 이동(domain shift), ii) 미세조정 데이터에 포함되지 않은 카테고리를 인식하는 제로샷 능력(zero-shot capability). 논쟁의 여지 없이, 미세조정 후 감소된 OOD 일반화는 미세조정 대상이 지나치게 단순화되어 오직 클래스 정보(예: "CLASS의 사진")만 제공되기 때문이다. 이는 CLIP이 사전학습된 과정과는 다르며, 사전학습 시에는 풍부한 의미 정보를 포함한 텍스트 감독이 충분히 제공된다. 따라서 우리는 미세조정 과정을 보완하기 위해 풍부한 의미 정보를 가진 보조 감독을 도입하여 OOD 일반화를 보존하는 앵커(anchor) 역할을 하도록 제안한다. 구체적으로, 우리 방법에서는 두 가지 유형의 앵커를 상세히 설명한다: i) 미세조정 세트의 이미지를 사용하되 사전학습된 캡셔너로부터 텍스트 감독을 보강하는 텍스트 보상 앵커(text-compensated anchor), ii) 다운스트림 작업에 따라 CLIP 사전학습 데이터와 유사한 데이터셋에서 검색된 이미지-텍스트 쌍 앵커(image-text-pair anchor), 이는 풍부한 의미를 가진 원래 CLIP 텍스트와 연관된다. 이러한 앵커들은 CLIP의 원래 특징 공간을 유지하기 위한 보조 의미 정보로 활용되어 OOD 일반화 능력을 보존한다. 포괄적인 실험 결과, 본 방법이 기존 미세조정과 유사한 내분포 성능을 달성하는 동시에 도메인 이동 및 제로샷 학습 벤치마크에서 새로운 최첨단 결과를 기록함을 입증한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jinwei Han

Zhiwen Lin

Zhongyisun Sun

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

비전-언어 모델의 앵커 기반 강건 미세조정

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider