Key points are not available for this paper at this time.
대규모 다중모달 모델(LMM)은 텍스트가 풍부한 이미지 등 다양한 유형의 이미지를 이해하는 데 뛰어난 능력을 보여주고 있습니다. 기존의 대부분 텍스트 풍부 이미지 벤치마크는 단순 추출 기반 질문 응답 방식이며, 현재 많은 LMM들이 쉽게 높은 점수를 획득합니다. 이는 현재 벤치마크가 다양한 모델의 성능을 정확히 반영하지 못한다는 뜻이며, 복잡한 추론 및 공간 이해 능력을 평가할 수 있는 새로운 벤치마크를 구축하는 것이 자연스러운 아이디어입니다. 본 연구에서는 텍스트가 풍부한 이미지 이해를 위해 11가지 다양한 과제로 LMM을 평가하는 Multi-Modal Reading(MMR) 벤치마크를 제안합니다. MMR은 언어 모델의 도움을 받아 인간 주석을 기반으로 구축된 최초의 텍스트 풍부 이미지 벤치마크입니다. GPT-4o를 포함한 여러 최첨단 LMM 평가 결과, 기존 LMM의 제한된 능력을 드러내며 우리 벤치마크의 가치를 강조합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jian Chen
Ruiyi Zhang
Yufan Zhou
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen 등(Mon,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e5b010b6db64358754933e — DOI: https://doi.org/10.48550/arxiv.2408.14594
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: