다중 모달 대형 언어 모델(MLLM)은 최근 빠르게 성장하며 수많은 새로운 연구를 낳고 있습니다. 주류 경향은 다양한 지시 이행 데이터셋을 수집하는 데이터 기반 방법론을 채택하는 것입니다. 그러나 이러한 접근법은 시각적 인지 능력이 제한적이라는 도전에 직면하는데, 이는 CLIP와 유사한 인코더만을 사용하여 입력으로부터 시각 정보를 추출하기 때문입니다. 이러한 인코더는 수십억 개의 이미지-텍스트 쌍으로 사전 학습되었음에도 불구하고, 텍스트 자막이 이미지에 묘사된 내용을 부분적으로만 포착하므로 정보 손실 문제를 겪고 있습니다. 이 제한을 극복하기 위해 본 논문은 전문 지식 혼합 메커니즘을 통해 MLLM의 시각 인지 능력을 향상시키는 방안을 제안합니다. 구체적으로, 본 연구는 다중 작업 인코더와 기존 시각 도구를 MLLM의 학습 및 추론 파이프라인에 통합하여 시각 입력의 더 포괄적인 요약을 제공하는 신규 방법을 소개합니다. 광범위한 실험을 통해 시각 전문가 통합으로 향상된 MLLM의 시각 인지 능력이 평가되어 그 효과성이 입증되었습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xin He
Longhui Wei
Linhai Xie
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Mon,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68d469d631b076d99fa6713e — DOI: https://doi.org/10.24963/ijcai.2025/123
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: