Los agentes de IA con capacidades avanzadas de razonamiento y uso de herramientas han demostrado un rendimiento impresionante en la navegación web para búsquedas profundas. Mientras que benchmarks existentes como BrowseComp evalúan estas habilidades de navegación, se centran principalmente en información textual, pasando por alto la prevalencia del contenido multimodal. Para cerrar esta brecha, presentamos MM-BrowseComp, un nuevo benchmark que comprende 224 preguntas desafiantes y elaboradas a mano, diseñadas específicamente para evaluar las capacidades de recuperación y razonamiento multimodal de los agentes. Estas preguntas suelen incorporar imágenes en los prompts, y la información crucial encontrada durante el proceso de búsqueda y razonamiento también puede estar incrustada en imágenes o videos en las páginas web. En consecuencia, los métodos que dependen exclusivamente del texto resultan insuficientes para nuestro benchmark. Además, proporcionamos una lista de verificación verificada para cada pregunta, que permite un análisis detallado de las dependencias multimodales y las vías de razonamiento. Nuestra evaluación exhaustiva de los modelos de última generación en MM-BrowseComp revela que incluso los modelos más destacados, como OpenAI o3 con herramientas, alcanzan solo un 29.02% de precisión, lo que resalta las capacidades multimodales subóptimas y la falta de razonamiento multimodal nativo en los modelos actuales.
Building similarity graph...
Analyzing shared references across papers
Loading...
S. Li
Xingyuan Bu
Wenjie Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68d7be70eebfec0fc52384ec — DOI: https://doi.org/10.48550/arxiv.2508.13186
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: