June 16, 2024Open Access

WildVision: Evaluación de Modelos de Visión-Lenguaje en Entornos Reales con Preferencias Humanas

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los avances recientes en modelos de visión-lenguaje (VLMs) resaltan la necesidad de evaluar las preferencias humanas en interacciones multimodales del mundo real. Para abordar esta brecha, lanzamos WildVision-Arena (WV-Arena), una plataforma en línea que recopila preferencias humanas para evaluar los VLMs. Seleccionamos WV-Bench al elegir 500 muestras de alta calidad de 8,000 envíos de usuarios en WV-Arena. WV-Bench utiliza GPT-4 como juez para comparar cada VLM con Claude-3-Sonnet, logrando una correlación de Spearman de 0.94 con el Elo de WV-Arena. Esto supera significativamente otros benchmarks como MMVet, MMMU y MMStar. Nuestro análisis exhaustivo de 20,000 interacciones reales revela perspectivas importantes sobre los casos de fallo de los VLMs de mejor desempeño. Por ejemplo, encontramos que aunque GPT-4V supera a muchos otros modelos como Reka-Flash, Opus y Yi-VL-Plus en tareas simples de reconocimiento visual y razonamiento, aún enfrenta desafíos con señales contextuales sutiles, razonamiento espacial, imaginación visual y conocimiento experto de dominio. Además, los VLMs actuales presentan problemas de alucinaciones y seguridad cuando se les provoca intencionalmente. Estamos liberando nuestros datos de chat y retroalimentación para promover la investigación en el campo de los VLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yujie Lu

Dongfu Jiang

Wenhu Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

WildVision: Evaluación de Modelos de Visión-Lenguaje en Entornos Reales con Preferencias Humanas

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider