최근 몇 년간 크로스모달 학습의 급속한 발전과 함께, CLIP과 같은 사전학습 모델은 이미지-텍스트 정렬 작업에서 강력한 제로샷 능력을 입증하여 멀티모달 연구의 중심이 되었습니다. 그러나 중요한 도전과제는 이러한 능력을 효과적으로 전이하면서 CLIP의 강점을 유지하는 방법입니다. 이를 해결하기 위해, 본 논문에서는 파라미터 효율적인 다중 작업 미세조정 프레임워크인 Multi-Task CLIP-Adapter를 제안합니다. 고정된 CLIP 인코더 뒤에 경량 어댑터 모듈을 삽입함으로써, 본 방법은 분류, 이미지-텍스트 검색 및 회귀를 포함한 여러 작업에 대한 통합 적응을 가능하게 합니다. 실험 결과, 본 접근법은 추가 파라미터가 0.2% 이하임에도 불구하고 8%에서 12%까지 성능 향상을 달성하며, 원래 모델의 제로샷 능력을 유지함을 보여줍니다. 기존 CLIP 및 전통적인 전이 전략과 비교할 때, Multi-Task CLIP-Adapter는 파라미터 효율성과 작업 일반화 면에서 유의한 이점을 제공하여 대규모 멀티모달 모델의 확장 가능한 응용에 새로운 길을 열어줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji Han
Applied and Computational Engineering
Harbin University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Ji Han (수요일,)는 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68c183f09b7b07f3a060f830 — DOI: https://doi.org/10.54254/2755-2721/2025.bj26532