May 20, 2024Open Access

Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics

Key Points

Key points are not available for this paper at this time.

Abstract

In this paper, we present an exploration of LLMs' abilities to problem solve with physical reasoning in situated environments. We construct a simple simulated environment and demonstrate examples of where, in a zero-shot setting, both text and multimodal LLMs display atomic world knowledge about various objects but fail to compose this knowledge in correct solutions for an object manipulation and placement task. We also use BLIP, a vision-language model trained with more sophisticated cross-modal attention, to identify cases relevant to object physical properties that that model fails to ground. Finally, we present a procedure for discovering the relevant properties of objects in the environment and propose a method to distill this knowledge back into the LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Ghaffari et al. (Mon,) studied this question.

www.synapsesocial.com/papers/68e694bdb6db64358761b660 — DOI: https://doi.org/10.1609/aaaiss.v3i1.31189

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Towards Practical Multi-Object Manipulation using Relational Reinforcement Learning· 2019 · 21 citations
Visual Instruction Tuning· 2023 · 676 citations
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation· 2022 · 865 citations
Reinforcement Learning for Pick and Place Operations in Robotics: A Survey· 2021 · 58 citations
Object perception in infancy: Interaction of spatial and kinetic information for object boundaries.· 1989 · 4 citations

Authors

Sadaf Ghaffari

Nikhil Krishnaswamy

Journals

Proceedings of the AAAI Symposium Series

Actions

Institutions

Colorado State University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion