Key points are not available for this paper at this time.
멀티모달 대형 언어 모델(MLLM)에서 시각 인코더의 잠재력을 충분히 활용하고 있을까요? 최근 MLLM이 멀티모달 이해 분야에서 뛰어난 성과를 보이며 학계와 산업계 모두의 큰 관심을 받고 있습니다. 현재 진행 중인 MLLM 경쟁에서는 주로 언어적 측면에 집중하는 경향이 있습니다. 더 크고 고품질의 지시 데이터셋과 대형 LLM의 참여가 증가하는 것을 목격하고 있습니다. 그러나 MLLM에서 활용되는 시각 신호에 대해서는 거의 주목하지 않고 있으며, 흔히 고정된 시각 인코더가 추출한 최종 고수준 특징으로 가정되고 있습니다. 본 논문에서는 밀집 커넥터(Dense Connector)를 소개합니다. 이는 다층 시각 특징을 활용하여 최소한의 추가 연산 부하로 기존 MLLM을 크게 향상시키는 간단하고 효과적이며 플러그 앤 플레이형 비전-언어 연결 장치입니다. 더욱이 이미지 데이터만으로 학습된 본 모델은 동영상 이해에서도 뛰어난 제로샷 능력을 보여줍니다. 다양한 시각 인코더, 이미지 해상도, 학습 데이터셋 규모, LLM 크기(2.7B에서 70B까지) 및 MLLM 구조(예: LLaVA, Mini-Gemini)에서의 실험 결과는 우리의 접근법이 다양성과 확장성을 갖췄음을 입증하며, 19개의 이미지 및 동영상 벤치마크에서 최첨단 성능을 달성합니다. 본 연구가 향후 MLLM 개발을 위한 귀중한 경험과 기본 모듈로서 역할을 하기를 기대합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Huanjin Yao
Wenhao Wu
Taojiannan Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Yao et al. (수요일,) 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e68fc0b6db6435876175b3 — DOI: https://doi.org/10.48550/arxiv.2405.13800
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: