What type of study is this?

This is a Experimental Study study.

September 24, 2025Open Access

세밀한 시각 지식을 비전-언어 모델에 주입하기

Key Points

도메인 적응과 범용 다중모달 지식 유지 간의 최적 균형이 매우 중요합니다.
이 방법은 세밀한 및 거친 그레인 검색 벤치마크에서 모두 강력한 성능을 보입니다.
지식 유지 문제를 완화하기 위해 표준 정규화 기법을 체계적으로 분석합니다.
신중한 검증 세트 설계는 다양한 데이터셋 간 재현성과 일반화를 향상시킵니다.

Abstract

대규모 대비 사전학습은 다양한 시각 및 다중모달 작업에 효과적인 표현(임베딩)을 생성할 수 있는 강력한 비전-언어 모델(VLM)을 만들어냅니다. 그러나 이러한 사전학습 임베딩은 세밀한 개방형 시각 검색에 최적화되어 있지 않으며, 최첨단 결과는 주석이 달린 도메인 특화 샘플을 사용해 비전 인코더를 미세 조정해야 합니다. 단순히 미세 조정을 수행하면 보통 치명적인 망각 현상이 발생하여 모델의 범용 시각 및 교차 모달 능력이 심각하게 저하됩니다. 본 연구에서는 세밀한 도메인 적응과 사전학습된 VLM의 폭넓은 다중모달 지식 유지 간에 최적의 균형을 이루도록 명시적으로 설계된 미세 조정 방법을 제안합니다. 연속 학습 문헌에서 영감을 얻어 지식 유지를 목표로 하는 표준 정규화 기법을 체계적으로 분석하고 효율적이고 효과적인 결합 전략을 제안합니다. 또한 재현성과 데이터셋 및 사전학습 모델 간 강건한 일반화를 보장하기 위해 검증 세트 설계 및 하이퍼파라미터 튜닝의 일반적으로 간과되는 중요한 측면을 다룹니다. 본 방법을 세밀한/거친 그레인 이미지-이미지 및 이미지-텍스트 검색 벤치마크에서 광범위하게 평가하였으며, 미세 조정 시 텍스트 데이터나 원 텍스트 인코더를 사용하지 않고도 시각-텍스트 정렬을 유지하며 일관되게 강력한 성능을 달성합니다. 코드 및 모델 체크포인트: https://github.com/nikosips/infusing.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Nikolaos-Antonios Ypsilantis

Kaifeng Chen

André de Melo Araújo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

세밀한 시각 지식을 비전-언어 모델에 주입하기

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider