本文系统评估了最先进的多模态大型语言模型(MLLMs)在使用GRASP和IntPhys 2数据集的直觉物理任务上的表现。我们评估了开源模型InternVL 2.5、Qwen 2.5 VL、LLaVA-OneVision以及专有模型Gemini 2.0 Flash Thinking,发现即使是最新模型也难以可靠地区分物理上合理和不合理的场景。为了超越性能指标,我们对模型嵌入进行了探测分析,提取关键处理阶段的中间表示,以检查任务相关信息的保留情况。结果显示,视任务难度而定,可能出现关键的视觉-语言不匹配:视觉编码器成功捕捉物理合理性线索,但语言模型未能有效利用这些信息,导致推理失败。这种不匹配表明,MLLMs在直觉物理任务中的主要限制不在视觉组件,而是视觉与语言信息整合的低效。我们的发现强调了视觉-语言对齐作为改进的关键领域,为未来MLLMs的发展提供了见解。
Building similarity graph...
Analyzing shared references across papers
Loading...
Mohamad Ballout
Serwan Jassim
Elia Bruni
Building similarity graph...
Analyzing shared references across papers
Loading...
Ballout等人(星期二,)研究了这一问题。
www.synapsesocial.com/papers/68d4759031b076d99fa6d5a8 — DOI: https://doi.org/10.48550/arxiv.2507.16572
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: