August 26, 2024Open Access

MMR：大規模マルチモーダルモデルの読解能力評価

Key Points

Key points are not available for this paper at this time.

Abstract

大規模マルチモーダルモデル（LMM）は、テキストが豊富な画像を含む様々なタイプの画像理解において印象的な能力を示しています。既存の多くのテキスト豊富な画像ベンチマークは単純な抽出ベースの質問応答であり、多くのLMMはすでに高得点を容易に達成しています。これは現在のベンチマークが異なるモデルの性能を正確に反映できていないことを意味し、複雑な推論や空間理解能力を評価するための新たなベンチマークの構築が自然な発想です。本研究では、11の多様なタスクからなるMulti-Modal Reading（MMR）ベンチマークを提案し、テキスト豊富な画像理解におけるLMMを評価します。MMRは言語モデルの助けを借りた人間注釈に基づく初のテキスト豊富な画像ベンチマークです。GPT-4oを含む複数の最先端LMMを評価することで、既存のLMMの限界的な能力を明らかにし、本ベンチマークの価値を強調しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jian Chen

Ruiyi Zhang

Yufan Zhou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MMR：大規模マルチモーダルモデルの読解能力評価

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider