August 26, 2024Open Access

MMR: 대규모 다중모달 모델의 독해 능력 평가

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 다중모달 모델(LMM)은 텍스트가 풍부한 이미지 등 다양한 유형의 이미지를 이해하는 데 뛰어난 능력을 보여주고 있습니다. 기존의 대부분 텍스트 풍부 이미지 벤치마크는 단순 추출 기반 질문 응답 방식이며, 현재 많은 LMM들이 쉽게 높은 점수를 획득합니다. 이는 현재 벤치마크가 다양한 모델의 성능을 정확히 반영하지 못한다는 뜻이며, 복잡한 추론 및 공간 이해 능력을 평가할 수 있는 새로운 벤치마크를 구축하는 것이 자연스러운 아이디어입니다. 본 연구에서는 텍스트가 풍부한 이미지 이해를 위해 11가지 다양한 과제로 LMM을 평가하는 Multi-Modal Reading(MMR) 벤치마크를 제안합니다. MMR은 언어 모델의 도움을 받아 인간 주석을 기반으로 구축된 최초의 텍스트 풍부 이미지 벤치마크입니다. GPT-4o를 포함한 여러 최첨단 LMM 평가 결과, 기존 LMM의 제한된 능력을 드러내며 우리 벤치마크의 가치를 강조합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jian Chen

Ruiyi Zhang

Yufan Zhou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MMR: 대규모 다중모달 모델의 독해 능력 평가

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider