Key points are not available for this paper at this time.
최근 다중양식 대형 언어 모델(MLLM)은 인식, 분할, 객체 탐지와 같은 언어 기반 지각 과제에서 큰 가능성을 보여주고 있다. 그러나 고차원적 추론을 필요로 하는 시각 인지 문제를 해결하는 데 있어 이들의 효과성은 아직 확립되지 않았다. 그 중 하나의 도전과제는 추상 시각 추론(AVR)으로, 이미지 집합 내 패턴 간의 관계를 식별하고 이후 패턴을 예측하는 인지 능력이다. 이 능력은 아동의 초기 신경발달 단계에서 매우 중요하다. Raven의 Progressive Matrices(RPM)와 Wechsler Intelligence Scale for Children(WISC)의 AVR 과제에서 영감을 받아, 본 연구에서는 새로운 데이터셋 MaRs-VQA와 세 가지 데이터셋을 포함하는 벤치마크 VCog-Bench를 제안하여 MLLM의 제로샷 AVR 능력을 평가하고 인간 지능과의 성능을 비교하였다. VCog-Bench에서 다양한 공개 및 비공개 MLLM과의 비교 실험을 통해 MLLM과 인간 지능 간의 격차를 밝혔으며, 이는 현재 MLLM의 시각 인지 한계를 강조한다. MaRs-VQA와 추론 파이프라인으로 구성된 VCog-Bench의 공개는 인간과 유사한 시각 인지 능력을 갖춘 차세대 MLLM 개발에 기여할 것이다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xu Cao
Bolin Lai
Wenqian Ye
Building similarity graph...
Analyzing shared references across papers
Loading...
Cao 등(Fri,)이 이 질문을 연구하였다.
www.synapsesocial.com/papers/68e64d66b6db6435875ddc9f — DOI: https://doi.org/10.48550/arxiv.2406.10424
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: