대규모 대비 사전학습은 다양한 시각 및 다중모달 작업에 효과적인 표현(임베딩)을 생성할 수 있는 강력한 비전-언어 모델(VLM)을 만들어냅니다. 그러나 이러한 사전학습 임베딩은 세밀한 개방형 시각 검색에 최적화되어 있지 않으며, 최첨단 결과는 주석이 달린 도메인 특화 샘플을 사용해 비전 인코더를 미세 조정해야 합니다. 단순히 미세 조정을 수행하면 보통 치명적인 망각 현상이 발생하여 모델의 범용 시각 및 교차 모달 능력이 심각하게 저하됩니다. 본 연구에서는 세밀한 도메인 적응과 사전학습된 VLM의 폭넓은 다중모달 지식 유지 간에 최적의 균형을 이루도록 명시적으로 설계된 미세 조정 방법을 제안합니다. 연속 학습 문헌에서 영감을 얻어 지식 유지를 목표로 하는 표준 정규화 기법을 체계적으로 분석하고 효율적이고 효과적인 결합 전략을 제안합니다. 또한 재현성과 데이터셋 및 사전학습 모델 간 강건한 일반화를 보장하기 위해 검증 세트 설계 및 하이퍼파라미터 튜닝의 일반적으로 간과되는 중요한 측면을 다룹니다. 본 방법을 세밀한/거친 그레인 이미지-이미지 및 이미지-텍스트 검색 벤치마크에서 광범위하게 평가하였으며, 미세 조정 시 텍스트 데이터나 원 텍스트 인코더를 사용하지 않고도 시각-텍스트 정렬을 유지하며 일관되게 강력한 성능을 달성합니다. 코드 및 모델 체크포인트: https://github.com/nikosips/infusing.
Building similarity graph...
Analyzing shared references across papers
Loading...
Nikolaos-Antonios Ypsilantis
Kaifeng Chen
André de Melo Araújo
Building similarity graph...
Analyzing shared references across papers
Loading...
Ypsilantis et al. (Sat,)가 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68d6e1978b2b6861e4c403d5 — DOI: https://doi.org/10.48550/arxiv.2508.12137
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: