April 22, 2024Open Access

VALOR-EVAL: Evaluación Holística de Cobertura y Fidelidad de Grandes Modelos Vision-Lenguaje

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los Grandes Modelos Vision-Lenguaje (LVLMs) sufren problemas de alucinaciones, donde los modelos generan salidas que suenan plausibles pero son factualmente incorrectas, lo que afecta su fiabilidad. Se necesita una evaluación cuantitativa integral para identificar y entender el alcance de las alucinaciones en estos modelos. Sin embargo, los benchmarks existentes suelen ser limitados en alcance, centrándose principalmente en alucinaciones de objetos. Además, los métodos de evaluación actuales tienen dificultades para abordar eficazmente las sutiles distinciones semánticas entre las salidas del modelo y los datos de referencia, así como el equilibrio entre alucinación e informativeness. Para abordar estos problemas, presentamos un benchmark multidimensional que cubre objetos, atributos y relaciones, con imágenes desafiantes seleccionadas basadas en sesgos asociativos. Además, proponemos un marco de evaluación en dos etapas basado en un modelo de lenguaje grande (LLM) que generaliza la popular métrica CHAIR e incorpora tanto la fidelidad como la cobertura en la evaluación. Experimentos con 10 LVLMs establecidos demuestran que nuestra métrica de evaluación es más completa y está mejor correlacionada con humanos que trabajos previos al evaluar nuestro dataset desafiante anotado por humanos. Nuestro trabajo también destaca el equilibrio crítico entre fidelidad y cobertura de las salidas del modelo, y anima a futuros trabajos a abordar las alucinaciones en los LVLMs manteniendo sus salidas informativas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoyi Qiu

Wenbo Hu

Zi-Yi Dou

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VALOR-EVAL: Evaluación Holística de Cobertura y Fidelidad de Grandes Modelos Vision-Lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider