February 21, 2024Open Access

CODIS: Avaliação do Entendimento Visual Dependente do Contexto para Modelos de Linguagem Multimodais de Grande Escala

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem multimodais de grande escala (MLLMs) demonstraram resultados promissores em diversas tarefas que combinam visão e linguagem. À medida que esses modelos se tornam mais integrados a pesquisas e aplicações, realizar avaliações abrangentes de suas capacidades tornou-se cada vez mais importante. No entanto, a maioria dos benchmarks existentes não considera que, em certas situações, as imagens precisam ser interpretadas dentro de um contexto mais amplo. Neste trabalho, apresentamos um novo benchmark, chamado CODIS, projetado para avaliar a capacidade dos modelos de utilizar o contexto fornecido em texto livre para aprimorar a compreensão visual. Nossos achados indicam que os MLLMs consistentemente ficam aquém do desempenho humano neste benchmark. Análises adicionais confirmam que esses modelos têm dificuldade para extrair e utilizar efetivamente as informações contextuais para melhorar sua compreensão das imagens. Isso ressalta a necessidade urgente de aprimorar a capacidade dos MLLMs de compreender visuais de forma dependente do contexto. Visite nosso site do projeto em https://thunlp-mt.github.io/CODIS.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fuwen Luo

Chi Chen

Zihao Wan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CODIS: Avaliação do Entendimento Visual Dependente do Contexto para Modelos de Linguagem Multimodais de Grande Escala

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider