Key points are not available for this paper at this time.
다중모달 대형 언어 모델(MLLM) 영역에서, 시각-언어 연결자는 사전 훈련된 시각 인코더와 대형 언어 모델(LLM)을 연결하는 데 중요한 역할을 합니다. 그 중요성에도 불구하고, 시각-언어 연결자는 상대적으로 덜 연구되었습니다. 본 연구에서는 MLLM이 높은 정확도를 달성하면서도 낮은 계산 비용을 유지할 수 있도록 하는 강력한 시각-언어 연결자를 제안하는 것을 목표로 합니다. 먼저 비전 트랜스포머에서 시각적 앵커의 존재를 밝히고, 이를 추출하기 위한 비용 효율적인 탐색 알고리즘을 제안합니다. 이러한 발견을 바탕으로, 사전 학습 중 얻어진 시각적 앵커로부터의 풍부한 사전 지식을 활용하여 정보 집계를 유도하는 새로운 시각-언어 연결자 Anchor Former(AcFormer)를 도입합니다. 광범위한 실험을 통해, 제안된 방법이 기준선 대비 계산 비용을 거의 3분의 2까지 크게 줄이면서 동시에 기준선 방법들을 능가하는 성능을 보임을 입증합니다. 이는 AcFormer의 효과성과 효율성을 강조합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haogeng Liu
Quanzeng You
Xiaotian Han
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu 등(Tue,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e68232b6db64358760b774 — DOI: https://doi.org/10.48550/arxiv.2405.17815