Key points are not available for this paper at this time.
Modelos de linguagem multimodais de grande escala (MLLMs) demonstraram resultados promissores em diversas tarefas que combinam visão e linguagem. À medida que esses modelos se tornam mais integrados a pesquisas e aplicações, realizar avaliações abrangentes de suas capacidades tornou-se cada vez mais importante. No entanto, a maioria dos benchmarks existentes não considera que, em certas situações, as imagens precisam ser interpretadas dentro de um contexto mais amplo. Neste trabalho, apresentamos um novo benchmark, chamado CODIS, projetado para avaliar a capacidade dos modelos de utilizar o contexto fornecido em texto livre para aprimorar a compreensão visual. Nossos achados indicam que os MLLMs consistentemente ficam aquém do desempenho humano neste benchmark. Análises adicionais confirmam que esses modelos têm dificuldade para extrair e utilizar efetivamente as informações contextuais para melhorar sua compreensão das imagens. Isso ressalta a necessidade urgente de aprimorar a capacidade dos MLLMs de compreender visuais de forma dependente do contexto. Visite nosso site do projeto em https://thunlp-mt.github.io/CODIS.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fuwen Luo
Chi Chen
Zihao Wan
Building similarity graph...
Analyzing shared references across papers
Loading...
Luo et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e785a2b6db6435876f7f8d — DOI: https://doi.org/10.48550/arxiv.2402.13607
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: