Key points are not available for this paper at this time.
大規模マルチモーダルモデル(LMM)は、テキストが豊富な画像を含む様々なタイプの画像理解において印象的な能力を示しています。既存の多くのテキスト豊富な画像ベンチマークは単純な抽出ベースの質問応答であり、多くのLMMはすでに高得点を容易に達成しています。これは現在のベンチマークが異なるモデルの性能を正確に反映できていないことを意味し、複雑な推論や空間理解能力を評価するための新たなベンチマークの構築が自然な発想です。本研究では、11の多様なタスクからなるMulti-Modal Reading(MMR)ベンチマークを提案し、テキスト豊富な画像理解におけるLMMを評価します。MMRは言語モデルの助けを借りた人間注釈に基づく初のテキスト豊富な画像ベンチマークです。GPT-4oを含む複数の最先端LMMを評価することで、既存のLMMの限界的な能力を明らかにし、本ベンチマークの価値を強調しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jian Chen
Ruiyi Zhang
Yufan Zhou
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Mon,) はこの問題を研究しました。
www.synapsesocial.com/papers/68e5b010b6db64358754933e — DOI: https://doi.org/10.48550/arxiv.2408.14594
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: