June 14, 2024Open Access

인간과 다중양식 대형 언어 모델(MLLM) 간의 시각 인지 격차란 무엇인가?

Key Points

Key points are not available for this paper at this time.

Abstract

최근 다중양식 대형 언어 모델(MLLM)은 인식, 분할, 객체 탐지와 같은 언어 기반 지각 과제에서 큰 가능성을 보여주고 있다. 그러나 고차원적 추론을 필요로 하는 시각 인지 문제를 해결하는 데 있어 이들의 효과성은 아직 확립되지 않았다. 그 중 하나의 도전과제는 추상 시각 추론(AVR)으로, 이미지 집합 내 패턴 간의 관계를 식별하고 이후 패턴을 예측하는 인지 능력이다. 이 능력은 아동의 초기 신경발달 단계에서 매우 중요하다. Raven의 Progressive Matrices(RPM)와 Wechsler Intelligence Scale for Children(WISC)의 AVR 과제에서 영감을 받아, 본 연구에서는 새로운 데이터셋 MaRs-VQA와 세 가지 데이터셋을 포함하는 벤치마크 VCog-Bench를 제안하여 MLLM의 제로샷 AVR 능력을 평가하고 인간 지능과의 성능을 비교하였다. VCog-Bench에서 다양한 공개 및 비공개 MLLM과의 비교 실험을 통해 MLLM과 인간 지능 간의 격차를 밝혔으며, 이는 현재 MLLM의 시각 인지 한계를 강조한다. MaRs-VQA와 추론 파이프라인으로 구성된 VCog-Bench의 공개는 인간과 유사한 시각 인지 능력을 갖춘 차세대 MLLM 개발에 기여할 것이다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xu Cao

Bolin Lai

Wenqian Ye

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

인간과 다중양식 대형 언어 모델(MLLM) 간의 시각 인지 격차란 무엇인가?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider