Este estudo amplia nossa investigação anterior sobre se modelos de linguagem grande multimodais (MLLMs) podem raciocinar sobre raciocínio físico, utilizando um ambiente de jogo como campo de teste. A estabilidade serviu como um cenário fundamental para sondar a compreensão do modelo sobre raciocínio físico. Avaliamos doze modelos, combinando aqueles do estudo anterior com seis modelos Open-weight adicionais, e os comparamos com participantes humanos em três tarefas que capturaram diferentes aspectos do raciocínio. Os humanos consistentemente alcançaram a maior precisão, ressaltando a lacuna entre o desempenho dos modelos e dos humanos. Entre os MLLMs, a série GPT continuou a apresentar bom desempenho, com o GPT-4o mostrando resultados confiáveis em tarefas baseadas em imagens, enquanto a série Qwen2.5VL alcançou as maiores pontuações gerais neste estudo ampliado e, em alguns casos, superou equivalentes comerciais. Tarefas binárias mais simples geraram desempenho equilibrado entre as modalidades, sugerindo que os modelos conseguem captar certos aspectos básicos do raciocínio, ao passo que tarefas de múltipla escolha mais complexas levaram a quedas acentuadas na precisão. Entradas estruturadas como XML melhoraram os resultados na tarefa de predição, onde o Qwen2.5VL superou variantes do GPT em nosso trabalho anterior. Esses achados demonstram progresso na escala e no design das modalidades para raciocínio físico, reafirmando que participantes humanos permanecem superiores em todas as tarefas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mury F. Dewantoro
Febri Abdullah
一夫 松下
Building similarity graph...
Analyzing shared references across papers
Loading...
Dewantoro et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68d6d8ba8b2b6861e4c3ef91 — DOI: https://doi.org/10.20944/preprints202509.1708.v1
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: