April 22, 2024Open Access

VALOR-EVAL: Avaliação Holística de Cobertura e Fidelidade de Grandes Modelos de Visão-Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Grandes Modelos de Visão-Linguagem (LVLMs) sofrem com problemas de alucinação, nos quais os modelos geram saídas que soam plausíveis, mas que são factualmente incorretas, minando sua confiabilidade. Uma avaliação quantitativa abrangente é necessária para identificar e entender a extensão das alucinações nesses modelos. No entanto, benchmarks existentes frequentemente são limitados em escopo, focando principalmente em alucinações de objetos. Além disso, os métodos de avaliação atuais têm dificuldade em lidar efetivamente com as sutis distinções semânticas entre as saídas do modelo e os dados de referência, bem como o equilíbrio entre alucinação e informatividade. Para resolver essas questões, introduzimos um benchmark multidimensional cobrindo objetos, atributos e relações, com imagens desafiadoras selecionadas com base em vieses associativos. Além disso, propomos uma estrutura de avaliação em duas etapas baseada em modelo de linguagem grande (LLM) que generaliza a métrica CHAIR popular e incorpora tanto a fidelidade quanto a cobertura na avaliação. Experimentos com 10 LVLMs estabelecidos demonstram que nossa métrica de avaliação é mais abrangente e melhor correlacionada com avaliações humanas do que trabalhos existentes ao avaliar nosso conjunto de dados desafiador anotado por humanos. Nosso trabalho também destaca o equilíbrio crítico entre fidelidade e cobertura das saídas do modelo, e incentiva trabalhos futuros a tratar as alucinações em LVLMs mantendo suas saídas informativas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoyi Qiu

Wenbo Hu

Zi-Yi Dou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VALOR-EVAL: Avaliação Holística de Cobertura e Fidelidade de Grandes Modelos de Visão-Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider