Los puntos clave no están disponibles para este artículo en este momento.
Los Grandes Modelos Vision-Lenguaje (LVLMs) sufren problemas de alucinaciones, donde los modelos generan salidas que suenan plausibles pero son factualmente incorrectas, lo que afecta su fiabilidad. Se necesita una evaluación cuantitativa integral para identificar y entender el alcance de las alucinaciones en estos modelos. Sin embargo, los benchmarks existentes suelen ser limitados en alcance, centrándose principalmente en alucinaciones de objetos. Además, los métodos de evaluación actuales tienen dificultades para abordar eficazmente las sutiles distinciones semánticas entre las salidas del modelo y los datos de referencia, así como el equilibrio entre alucinación e informativeness. Para abordar estos problemas, presentamos un benchmark multidimensional que cubre objetos, atributos y relaciones, con imágenes desafiantes seleccionadas basadas en sesgos asociativos. Además, proponemos un marco de evaluación en dos etapas basado en un modelo de lenguaje grande (LLM) que generaliza la popular métrica CHAIR e incorpora tanto la fidelidad como la cobertura en la evaluación. Experimentos con 10 LVLMs establecidos demuestran que nuestra métrica de evaluación es más completa y está mejor correlacionada con humanos que trabajos previos al evaluar nuestro dataset desafiante anotado por humanos. Nuestro trabajo también destaca el equilibrio crítico entre fidelidad y cobertura de las salidas del modelo, y anima a futuros trabajos a abordar las alucinaciones en los LVLMs manteniendo sus salidas informativas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haoyi Qiu
Wenbo Hu
Zi-Yi Dou
Building similarity graph...
Analyzing shared references across papers
Loading...
Qiu et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6e2eeb6db64358765ebad — DOI: https://doi.org/10.48550/arxiv.2404.13874
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: