Key points are not available for this paper at this time.
대조적 언어-이미지 사전학습(CLP)은 다양한 작업에서 우수한 성과를 달성했습니다. 그러나 CLIP의 효율성은 방대한 사전학습 데이터에 크게 의존하여 계산 자원의 상당한 소비를 초래합니다. 지식 증류가 단일 모달리티 모델에 널리 적용되었지만, 광범위한 데이터를 가진 비전-언어 기초 모델에 지식 증류를 효율적으로 확장하는 방법은 아직 상대적으로 탐구되지 않았습니다. 본 논문에서는 큰 비전-언어 기초 모델에서 작은 모델로 지식을 효과적으로 전이하는 새로운 증류 메커니즘인 CLIP-CID를 제안합니다. 먼저 전이 학습 편향을 줄이고 증류 효율을 개선하기 위해 단순하지만 효율적인 이미지 의미 균형 방법을 제안합니다. 이 방법은 LAION400M에서 이미지-텍스트 쌍의 43.7%를 걸러내면서도 우수한 성능을 유지합니다. 이후 교사 모델에서 학생 모델로의 지식 전이를 용이하게 하기 위해 클러스터-인스턴스 판별을 활용하여 학생 모델이 사전학습 데이터에 대한 전체적인 의미 이해를 획득할 수 있도록 합니다. 실험 결과 CLIP-CID는 선형 프로브 및 제로샷 분류를 포함한 다양한 다운스트림 작업에서 최첨단 성능을 달성함을 보였습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kaicheng Yang
T. Gu
Xiang An
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang 등(Sun,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e5bd48b6db64358755586c — DOI: https://doi.org/10.48550/arxiv.2408.09441
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: