Key points are not available for this paper at this time.
マルチモーダル大規模言語モデル(MLLM)は、視覚と言語を組み合わせた様々なタスクで有望な成果を示しています。これらのモデルが研究や応用でより重要な役割を担うにつれ、その能力を包括的に評価することの重要性が高まっています。しかし、既存のほとんどのベンチマークは、特定の状況下で画像をより広い文脈の中で解釈する必要があることを考慮していません。本研究では、自由形式のテキストで提供される文脈を利用して視覚理解を向上させるモデルの能力を評価する新たなベンチマーク「CODIS」を提案します。我々の検証結果は、MLLMが一貫して人間のパフォーマンスに及ばないことを示しています。さらに分析したところ、これらのモデルは文脈情報を効果的に抽出・利用して画像理解を高めることに苦戦していることが明らかになりました。これは、MLLMが文脈依存的に視覚情報を理解する能力を強化する必要性を強く示しています。プロジェクトのウェブサイトはこちら:https://thunlp-mt.github.io/CODIS。
Building similarity graph...
Analyzing shared references across papers
Loading...
Fuwen Luo
Chi Chen
Zihao Wan
Building similarity graph...
Analyzing shared references across papers
Loading...
Luoら(Wed,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e785a2b6db6435876f7f8d — DOI: https://doi.org/10.48550/arxiv.2402.13607
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: