Key points are not available for this paper at this time.
대규모 이미지-텍스트 사전학습 모델(예: CLIP)을 비디오 영역에 적용하는 것은 현재 텍스트-비디오 검색의 최첨단 기술입니다. 주요 접근법은 텍스트-비디오 쌍을 공통 임베딩 공간으로 변환하고, 특정 개체에 대한 교차 모달 상호작용을 활용하여 의미적 정렬을 달성하는 것입니다. 효과적이지만, 이러한 패러다임은 막대한 계산 비용을 초래하여 비효율적인 검색으로 이어집니다. 이를 해결하기 위해, 본 연구는 모달리티 간 잠재 공유 의미를 활용하는 간단하면서도 효과적인 방법인 글로벌-로컬 의미 일관성 학습(GLSCL)을 제안합니다. 구체적으로, 거친 정렬을 탐색하기 위한 매개변수 없는 글로벌 상호작용 모듈을 도입하고, 여러 학습 가능한 쿼리를 활용하여 잠재 의미 개념을 포착하는 공유 로컬 상호작용 모듈을 설계하여 세밀한 정렬을 학습합니다. 또한, 시각 쿼리와 대응하는 텍스트 쿼리 간 개념 정렬을 수행하는 상호 일관성 손실(ICL)과, 시각(텍스트) 쿼리 내 분포를 분리하여 더욱 구별력 있는 개념을 생성하는 내부 다양성 손실(IDL)을 개발하였습니다. MSR-VTT, MSVD, DiDeMo, LSMDC, ActivityNet 등 다섯 가지 널리 사용되는 벤치마크에서 광범위한 실험을 통해 제안 방법의 우수한 효과성과 효율성을 입증하였습니다. 특히, 본 방법은 최첨단과 유사한 성능을 발휘하면서 계산 비용 측면에서 약 220배 빠릅니다. 코드는 https://github.com/zchoi/GLSCL 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haonan Zhang
Pengpeng Zeng
Lianli Gao
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등(Tue,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e69115b6db6435876185ff — DOI: https://doi.org/10.48550/arxiv.2405.12710
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: