从像素到原理:探究多模态语言模型中的直觉物理理解 | Synapse