What type of study is this?

September 10, 2025Open Access

CLIP 및 어댑터 모듈 기반 다중 작업 학습 프레임워크

Key Points

본 접근법은 0.2% 미만의 파라미터 증가에도 불구하고 최대 12%의 성능 향상을 이룹니다.
경량 어댑터 모듈 사용으로 모델은 CLIP의 원래 제로샷 능력을 유지합니다.
이 프레임워크는 분류, 이미지-텍스트 검색 및 회귀 작업에 걸친 적응을 촉진합니다.
기존 전이 전략에 비해 작업 일반화를 향상시키는 상당한 이점을 제공합니다.

Abstract

최근 몇 년간 크로스모달 학습의 급속한 발전과 함께, CLIP과 같은 사전학습 모델은 이미지-텍스트 정렬 작업에서 강력한 제로샷 능력을 입증하여 멀티모달 연구의 중심이 되었습니다. 그러나 중요한 도전과제는 이러한 능력을 효과적으로 전이하면서 CLIP의 강점을 유지하는 방법입니다. 이를 해결하기 위해, 본 논문에서는 파라미터 효율적인 다중 작업 미세조정 프레임워크인 Multi-Task CLIP-Adapter를 제안합니다. 고정된 CLIP 인코더 뒤에 경량 어댑터 모듈을 삽입함으로써, 본 방법은 분류, 이미지-텍스트 검색 및 회귀를 포함한 여러 작업에 대한 통합 적응을 가능하게 합니다. 실험 결과, 본 접근법은 추가 파라미터가 0.2% 이하임에도 불구하고 8%에서 12%까지 성능 향상을 달성하며, 원래 모델의 제로샷 능력을 유지함을 보여줍니다. 기존 CLIP 및 전통적인 전이 전략과 비교할 때, Multi-Task CLIP-Adapter는 파라미터 효율성과 작업 일반화 면에서 유의한 이점을 제공하여 대규모 멀티모달 모델의 확장 가능한 응용에 새로운 길을 열어줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ji Han

Journals

Applied and Computational Engineering

Actions

Institutions

Harbin University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CLIP 및 어댑터 모듈 기반 다중 작업 학습 프레임워크

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study