What type of study is this?

This is a Quantitative Study study.

September 23, 2025Open Access

从像素到原理：探究多模态语言模型中的直觉物理理解

Key Points

尽管具备先进能力，多模态语言模型在直觉物理任务中仍存在不足。
借助GRASP和IntPhys 2数据集，评估了InternVL 2.5和Gemini 2.0等模型的性能差距。
通过探测分析，发现视觉线索与语言推理之间存在关键不匹配。
结果指出视觉信息捕捉有效，但语言模型利用不足，突出改进空间。

Abstract

本文系统评估了最先进的多模态大型语言模型（MLLMs）在使用GRASP和IntPhys 2数据集的直觉物理任务上的表现。我们评估了开源模型InternVL 2.5、Qwen 2.5 VL、LLaVA-OneVision以及专有模型Gemini 2.0 Flash Thinking，发现即使是最新模型也难以可靠地区分物理上合理和不合理的场景。为了超越性能指标，我们对模型嵌入进行了探测分析，提取关键处理阶段的中间表示，以检查任务相关信息的保留情况。结果显示，视任务难度而定，可能出现关键的视觉-语言不匹配：视觉编码器成功捕捉物理合理性线索，但语言模型未能有效利用这些信息，导致推理失败。这种不匹配表明，MLLMs在直觉物理任务中的主要限制不在视觉组件，而是视觉与语言信息整合的低效。我们的发现强调了视觉-语言对齐作为改进的关键领域，为未来MLLMs的发展提供了见解。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mohamad Ballout

Serwan Jassim

Elia Bruni

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

从像素到原理：探究多模态语言模型中的直觉物理理解

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider