Key points are not available for this paper at this time.
대규모 다중모달 모델(LMM)은 시각 인코더와 대형 언어 모델을 연결하여 뛰어난 추론 능력을 보여주고 있습니다. LMM은 일반적으로 CLIP 시각 인코더의 마지막 전 단계 특징과 같은 고정된 시각 토큰 수를 접두사 콘텐츠로 사용합니다. 최근 LMM들은 고해상도 이미지와 비디오 같은 더 복잡한 시각 입력을 포함하면서 시각 토큰 수가 크게 증가했습니다. 그러나 Transformer 아키텍처 설계로 인해 이러한 모델의 계산 비용은 입력 토큰 수에 따라 제곱적으로 증가하는 경향이 있습니다. 이 문제를 해결하기 위해 우리는 토큰 축소 메커니즘을 탐구했고, 이전 연구와 유사하게 많은 시각 토큰이 공간적으로 중복된다는 점을 발견했습니다. 이에 기반하여, 우리는 시각 토큰 수를 크게 줄이면서도 유사한 모델 성능을 유지하는 새로운 적응형 시각 토큰 축소 방법인 PruMerge를 제안합니다. 먼저 클래스 토큰 및 공간 토큰과의 유사성을 바탕으로 가지치기되지 않은 시각 토큰을 선택합니다. 그런 다음 키 유사성을 기반으로 가지치기된 토큰들을 군집화하고 군집화된 토큰을 가지치기되지 않은 토큰과 병합하여 정보를 보완합니다. 실험적으로, LLaVA-1.5에 적용했을 때 이 방법은 평균 18배의 시각 토큰 압축을 달성하며 다양한 시각 질문 응답과 추론 작업에서 유사한 성능을 나타냅니다. 코드와 체크포인트는 https://llava-prumerge.github.io/ 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuzhang Shang
Mu Cai
Bingxin Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Shang 등(금요일,)은 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e72cd4b6db6435876a60cb — DOI: https://doi.org/10.48550/arxiv.2403.15388
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: