What type of study is this?

This is a Quantitative Study study.

September 24, 2025Open Access

Exploração dos Julgamentos de Estabilidade: De LLMs Multimodais a Insights Humanos

Key Points

Participantes humanos alcançaram a maior precisão nas tarefas, demonstrando superioridade em relação aos modelos.
O GPT-4o mostrou desempenho confiável em tarefas baseadas em imagens, enquanto o Qwen2.5VL superou os demais na pontuação geral.
Tarefas binárias mais simples resultaram em desempenho equilibrado dos modelos, enquanto tarefas complexas levaram a quedas notáveis na precisão.
Entradas estruturadas como XML aprimoraram os resultados na tarefa de predição, indicando progresso na abordagem multimodal.

Abstract

Este estudo amplia nossa investigação anterior sobre se modelos de linguagem grande multimodais (MLLMs) podem raciocinar sobre raciocínio físico, utilizando um ambiente de jogo como campo de teste. A estabilidade serviu como um cenário fundamental para sondar a compreensão do modelo sobre raciocínio físico. Avaliamos doze modelos, combinando aqueles do estudo anterior com seis modelos Open-weight adicionais, e os comparamos com participantes humanos em três tarefas que capturaram diferentes aspectos do raciocínio. Os humanos consistentemente alcançaram a maior precisão, ressaltando a lacuna entre o desempenho dos modelos e dos humanos. Entre os MLLMs, a série GPT continuou a apresentar bom desempenho, com o GPT-4o mostrando resultados confiáveis em tarefas baseadas em imagens, enquanto a série Qwen2.5VL alcançou as maiores pontuações gerais neste estudo ampliado e, em alguns casos, superou equivalentes comerciais. Tarefas binárias mais simples geraram desempenho equilibrado entre as modalidades, sugerindo que os modelos conseguem captar certos aspectos básicos do raciocínio, ao passo que tarefas de múltipla escolha mais complexas levaram a quedas acentuadas na precisão. Entradas estruturadas como XML melhoraram os resultados na tarefa de predição, onde o Qwen2.5VL superou variantes do GPT em nosso trabalho anterior. Esses achados demonstram progresso na escala e no design das modalidades para raciocínio físico, reafirmando que participantes humanos permanecem superiores em todas as tarefas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mury F. Dewantoro

Febri Abdullah

一

一夫松下

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Exploração dos Julgamentos de Estabilidade: De LLMs Multimodais a Insights Humanos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider