Agentes de IA com capacidades avançadas de raciocínio e uso de ferramentas têm demonstrado desempenho impressionante na navegação na web para buscas profundas. Enquanto benchmarks existentes como BrowseComp avaliam essas habilidades de navegação, eles focam principalmente em informações textuais, negligenciando a prevalência de conteúdo multimodal. Para preencher essa lacuna, apresentamos MM-BrowseComp, um novo benchmark composto por 224 perguntas desafiadoras e cuidadosamente elaboradas, especificamente projetadas para avaliar as capacidades de recuperação e raciocínio multimodal dos agentes. Essas perguntas frequentemente incorporam imagens nas instruções, e informações cruciais encontradas durante o processo de busca e raciocínio também podem estar embutidas em imagens ou vídeos nas páginas da web. Consequentemente, métodos que dependem apenas de texto mostram-se insuficientes para nosso benchmark. Além disso, fornecemos uma lista de verificação verificada para cada pergunta, permitindo uma análise detalhada das dependências multimodais e dos caminhos de raciocínio. Nossa avaliação abrangente dos modelos de última geração no MM-BrowseComp revela que, mesmo modelos de ponta como OpenAI o3 com ferramentas alcançam apenas 29,02% de precisão, destacando as capacidades multimodais subótimas e a falta de raciocínio multimodal nativo nos modelos atuais.
Building similarity graph...
Analyzing shared references across papers
Loading...
S. Li
Xingyuan Bu
Wenjie Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (qui,) estudaram essa questão.
www.synapsesocial.com/papers/68d7be70eebfec0fc52384ec — DOI: https://doi.org/10.48550/arxiv.2508.13186
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: