CODIS:マルチモーダル大規模言語モデルの文脈依存視覚理解のベンチマーク評価 | Synapse