September 27, 2025Open Access

MM-BrowseComp: Un Benchmark Integral para Agentes de Navegación Multimodal

Puntos clave

Los agentes alcanzaron solo un 29.02% de precisión en MM-BrowseComp, revelando debilidades en las capacidades de razonamiento multimodal.
El benchmark incluye 224 preguntas únicas diseñadas para la evaluación multimodal, que involucran imágenes y videos.
La evaluación utiliza preguntas elaboradas a mano, proporcionando una lista de verificación para un análisis detallado de las dependencias en el razonamiento.
Los hallazgos sugieren una brecha en las capacidades multimodales de los modelos líderes de IA, incluyendo OpenAI o3.

Resumen

Los agentes de IA con capacidades avanzadas de razonamiento y uso de herramientas han demostrado un rendimiento impresionante en la navegación web para búsquedas profundas. Mientras que benchmarks existentes como BrowseComp evalúan estas habilidades de navegación, se centran principalmente en información textual, pasando por alto la prevalencia del contenido multimodal. Para cerrar esta brecha, presentamos MM-BrowseComp, un nuevo benchmark que comprende 224 preguntas desafiantes y elaboradas a mano, diseñadas específicamente para evaluar las capacidades de recuperación y razonamiento multimodal de los agentes. Estas preguntas suelen incorporar imágenes en los prompts, y la información crucial encontrada durante el proceso de búsqueda y razonamiento también puede estar incrustada en imágenes o videos en las páginas web. En consecuencia, los métodos que dependen exclusivamente del texto resultan insuficientes para nuestro benchmark. Además, proporcionamos una lista de verificación verificada para cada pregunta, que permite un análisis detallado de las dependencias multimodales y las vías de razonamiento. Nuestra evaluación exhaustiva de los modelos de última generación en MM-BrowseComp revela que incluso los modelos más destacados, como OpenAI o3 con herramientas, alcanzan solo un 29.02% de precisión, lo que resalta las capacidades multimodales subóptimas y la falta de razonamiento multimodal nativo en los modelos actuales.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

S. Li

Xingyuan Bu

Wenjie Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MM-BrowseComp: Un Benchmark Integral para Agentes de Navegación Multimodal

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider