Key points are not available for this paper at this time.
Grandes Modelos de Visão-Linguagem (LVLMs) sofrem com problemas de alucinação, nos quais os modelos geram saídas que soam plausíveis, mas que são factualmente incorretas, minando sua confiabilidade. Uma avaliação quantitativa abrangente é necessária para identificar e entender a extensão das alucinações nesses modelos. No entanto, benchmarks existentes frequentemente são limitados em escopo, focando principalmente em alucinações de objetos. Além disso, os métodos de avaliação atuais têm dificuldade em lidar efetivamente com as sutis distinções semânticas entre as saídas do modelo e os dados de referência, bem como o equilíbrio entre alucinação e informatividade. Para resolver essas questões, introduzimos um benchmark multidimensional cobrindo objetos, atributos e relações, com imagens desafiadoras selecionadas com base em vieses associativos. Além disso, propomos uma estrutura de avaliação em duas etapas baseada em modelo de linguagem grande (LLM) que generaliza a métrica CHAIR popular e incorpora tanto a fidelidade quanto a cobertura na avaliação. Experimentos com 10 LVLMs estabelecidos demonstram que nossa métrica de avaliação é mais abrangente e melhor correlacionada com avaliações humanas do que trabalhos existentes ao avaliar nosso conjunto de dados desafiador anotado por humanos. Nosso trabalho também destaca o equilíbrio crítico entre fidelidade e cobertura das saídas do modelo, e incentiva trabalhos futuros a tratar as alucinações em LVLMs mantendo suas saídas informativas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haoyi Qiu
Wenbo Hu
Zi-Yi Dou
Building similarity graph...
Analyzing shared references across papers
Loading...
Qiu et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e6e2eeb6db64358765ebad — DOI: https://doi.org/10.48550/arxiv.2404.13874
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: