May 22, 2024Open Access

MLLM용 밀집 커넥터

Key Points

Key points are not available for this paper at this time.

Abstract

멀티모달 대형 언어 모델(MLLM)에서 시각 인코더의 잠재력을 충분히 활용하고 있을까요? 최근 MLLM이 멀티모달 이해 분야에서 뛰어난 성과를 보이며 학계와 산업계 모두의 큰 관심을 받고 있습니다. 현재 진행 중인 MLLM 경쟁에서는 주로 언어적 측면에 집중하는 경향이 있습니다. 더 크고 고품질의 지시 데이터셋과 대형 LLM의 참여가 증가하는 것을 목격하고 있습니다. 그러나 MLLM에서 활용되는 시각 신호에 대해서는 거의 주목하지 않고 있으며, 흔히 고정된 시각 인코더가 추출한 최종 고수준 특징으로 가정되고 있습니다. 본 논문에서는 밀집 커넥터(Dense Connector)를 소개합니다. 이는 다층 시각 특징을 활용하여 최소한의 추가 연산 부하로 기존 MLLM을 크게 향상시키는 간단하고 효과적이며 플러그 앤 플레이형 비전-언어 연결 장치입니다. 더욱이 이미지 데이터만으로 학습된 본 모델은 동영상 이해에서도 뛰어난 제로샷 능력을 보여줍니다. 다양한 시각 인코더, 이미지 해상도, 학습 데이터셋 규모, LLM 크기(2.7B에서 70B까지) 및 MLLM 구조(예: LLaVA, Mini-Gemini)에서의 실험 결과는 우리의 접근법이 다양성과 확장성을 갖췄음을 입증하며, 19개의 이미지 및 동영상 벤치마크에서 최첨단 성능을 달성합니다. 본 연구가 향후 MLLM 개발을 위한 귀중한 경험과 기본 모듈로서 역할을 하기를 기대합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Huanjin Yao

Wenhao Wu

Taojiannan Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MLLM용 밀집 커넥터

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider