Los puntos clave no están disponibles para este artículo en este momento.
Los avances recientes en modelos de visión-lenguaje (VLMs) resaltan la necesidad de evaluar las preferencias humanas en interacciones multimodales del mundo real. Para abordar esta brecha, lanzamos WildVision-Arena (WV-Arena), una plataforma en línea que recopila preferencias humanas para evaluar los VLMs. Seleccionamos WV-Bench al elegir 500 muestras de alta calidad de 8,000 envíos de usuarios en WV-Arena. WV-Bench utiliza GPT-4 como juez para comparar cada VLM con Claude-3-Sonnet, logrando una correlación de Spearman de 0.94 con el Elo de WV-Arena. Esto supera significativamente otros benchmarks como MMVet, MMMU y MMStar. Nuestro análisis exhaustivo de 20,000 interacciones reales revela perspectivas importantes sobre los casos de fallo de los VLMs de mejor desempeño. Por ejemplo, encontramos que aunque GPT-4V supera a muchos otros modelos como Reka-Flash, Opus y Yi-VL-Plus en tareas simples de reconocimiento visual y razonamiento, aún enfrenta desafíos con señales contextuales sutiles, razonamiento espacial, imaginación visual y conocimiento experto de dominio. Además, los VLMs actuales presentan problemas de alucinaciones y seguridad cuando se les provoca intencionalmente. Estamos liberando nuestros datos de chat y retroalimentación para promover la investigación en el campo de los VLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yujie Lu
Dongfu Jiang
Wenhu Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu et al. (Sun,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e64883b6db6435875d9ea2 — DOI: https://doi.org/10.48550/arxiv.2406.11069
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: