September 27, 2025Open Access

MM-BrowseComp: Um Benchmark Abrangente para Agentes de Navegação Multimodal

Key Points

Os agentes alcançaram apenas 29,02% de precisão no MM-BrowseComp, revelando fraquezas nas capacidades de raciocínio multimodal.
O benchmark inclui 224 perguntas únicas projetadas para avaliação multimodal, envolvendo imagens e vídeos.
A avaliação utiliza perguntas cuidadosamente elaboradas, fornecendo uma lista de verificação para análise detalhada das dependências no raciocínio.
Os resultados sugerem uma lacuna nas capacidades multimodais nos principais modelos de IA, incluindo o OpenAI o3.

Abstract

Agentes de IA com capacidades avançadas de raciocínio e uso de ferramentas têm demonstrado desempenho impressionante na navegação na web para buscas profundas. Enquanto benchmarks existentes como BrowseComp avaliam essas habilidades de navegação, eles focam principalmente em informações textuais, negligenciando a prevalência de conteúdo multimodal. Para preencher essa lacuna, apresentamos MM-BrowseComp, um novo benchmark composto por 224 perguntas desafiadoras e cuidadosamente elaboradas, especificamente projetadas para avaliar as capacidades de recuperação e raciocínio multimodal dos agentes. Essas perguntas frequentemente incorporam imagens nas instruções, e informações cruciais encontradas durante o processo de busca e raciocínio também podem estar embutidas em imagens ou vídeos nas páginas da web. Consequentemente, métodos que dependem apenas de texto mostram-se insuficientes para nosso benchmark. Além disso, fornecemos uma lista de verificação verificada para cada pergunta, permitindo uma análise detalhada das dependências multimodais e dos caminhos de raciocínio. Nossa avaliação abrangente dos modelos de última geração no MM-BrowseComp revela que, mesmo modelos de ponta como OpenAI o3 com ferramentas alcançam apenas 29,02% de precisão, destacando as capacidades multimodais subótimas e a falta de raciocínio multimodal nativo nos modelos atuais.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

S. Li

Xingyuan Bu

Wenjie Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MM-BrowseComp: Um Benchmark Abrangente para Agentes de Navegação Multimodal

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider