February 21, 2024Open Access

CODIS：マルチモーダル大規模言語モデルの文脈依存視覚理解のベンチマーク評価

Key Points

Key points are not available for this paper at this time.

Abstract

マルチモーダル大規模言語モデル（MLLM）は、視覚と言語を組み合わせた様々なタスクで有望な成果を示しています。これらのモデルが研究や応用でより重要な役割を担うにつれ、その能力を包括的に評価することの重要性が高まっています。しかし、既存のほとんどのベンチマークは、特定の状況下で画像をより広い文脈の中で解釈する必要があることを考慮していません。本研究では、自由形式のテキストで提供される文脈を利用して視覚理解を向上させるモデルの能力を評価する新たなベンチマーク「CODIS」を提案します。我々の検証結果は、MLLMが一貫して人間のパフォーマンスに及ばないことを示しています。さらに分析したところ、これらのモデルは文脈情報を効果的に抽出・利用して画像理解を高めることに苦戦していることが明らかになりました。これは、MLLMが文脈依存的に視覚情報を理解する能力を強化する必要性を強く示しています。プロジェクトのウェブサイトはこちら：https://thunlp-mt.github.io/CODIS。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fuwen Luo

Chi Chen

Zihao Wan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CODIS：マルチモーダル大規模言語モデルの文脈依存視覚理解のベンチマーク評価

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider