Key points are not available for this paper at this time.
멀티모달 언어 모델 분야에서 대부분의 방법들은 LLaVA와 유사한 아키텍처를 기반으로 구축되어 있습니다. 이러한 모델들은 단일 계층 ViT 특징을 시각적 프롬프트로 사용하여 텍스트 토큰과 함께 언어 모델에 직접 입력합니다. 그러나 긴 시퀀스의 시각 신호나 비디오와 같은 입력을 처리할 때, 언어 모델의 자기 주의 메커니즘은 상당한 계산 비용을 초래할 수 있습니다. 또한 단일 계층 ViT 특징을 사용하는 것은 대형 언어 모델이 시각 신호를 완전히 인식하기 어렵게 만듭니다. 본 논문은 계산 비용을 최소화하면서 모델이 시각 신호를 최대한 포괄적으로 인식할 수 있도록 효율적인 멀티모달 언어 모델을 제안합니다. 본 방법은 주로: (1) Flamingo와 유사한 이미지-텍스트 상호작용을 위한 교차 주의 방식을 사용합니다. (2) 계층적 ViT 특징을 활용합니다. (3) 모델 효과성을 향상시키기 위해 전문가 집합(Mixture of Experts, MoE) 메커니즘을 도입합니다. 본 모델은 공개 멀티모달 벤치마크에서 경쟁력 있는 성과를 내며 이미지 캡셔닝과 비디오 캡셔닝과 같은 작업에서 우수한 성능을 보입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kaibing Chen
Shen Dong
Hanwen Zhong
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen 등(Fri,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e5fc83b6db643587590c5f — DOI: https://doi.org/10.48550/arxiv.2407.14177