May 28, 2024Open Access

시각적 앵커는 다중모달 대형 언어 모델을 위한 강력한 정보 집계기

Key Points

Key points are not available for this paper at this time.

Abstract

다중모달 대형 언어 모델(MLLM) 영역에서, 시각-언어 연결자는 사전 훈련된 시각 인코더와 대형 언어 모델(LLM)을 연결하는 데 중요한 역할을 합니다. 그 중요성에도 불구하고, 시각-언어 연결자는 상대적으로 덜 연구되었습니다. 본 연구에서는 MLLM이 높은 정확도를 달성하면서도 낮은 계산 비용을 유지할 수 있도록 하는 강력한 시각-언어 연결자를 제안하는 것을 목표로 합니다. 먼저 비전 트랜스포머에서 시각적 앵커의 존재를 밝히고, 이를 추출하기 위한 비용 효율적인 탐색 알고리즘을 제안합니다. 이러한 발견을 바탕으로, 사전 학습 중 얻어진 시각적 앵커로부터의 풍부한 사전 지식을 활용하여 정보 집계를 유도하는 새로운 시각-언어 연결자 Anchor Former(AcFormer)를 도입합니다. 광범위한 실험을 통해, 제안된 방법이 기준선 대비 계산 비용을 거의 3분의 2까지 크게 줄이면서 동시에 기준선 방법들을 능가하는 성능을 보임을 입증합니다. 이는 AcFormer의 효과성과 효율성을 강조합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haogeng Liu

Quanzeng You

Xiaotian Han

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

시각적 앵커는 다중모달 대형 언어 모델을 위한 강력한 정보 집계기

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study