What question did this study set out to answer?

本研究は、多モーダル大規模言語モデルにおける複雑な推論タスクを視覚的思考により強化することを目的としています。

December 19, 2025Open Access

空間での推論中に想像する：多モーダル思考可視化

Key Points

本研究は、多モーダル大規模言語モデルにおける複雑な推論タスクを視覚的思考により強化することを目的としています。
推論トレースの可視化を生成する多モーダル思考可視化（MVoT）を導入しました。
視覚的一貫性を改善するために、自己回帰MLLMにトークン不整合損失を実装しました。
動的な空間推論タスクを通じて性能を評価しました。
MVoTは様々な推論タスクで競争力のある性能を示しました。
従来の手法が失敗する困難なシナリオにおいて大幅な改善を示しました。

Abstract

Chain-of-Thought（CoT）プロンプティングは、大規模言語モデル（LLM）および多モーダル大規模言語モデル（MLLM）における複雑な推論を強化するために非常に効果的であることが証明されています。しかしながら、複雑な空間推論タスクでは困難を伴います。それでも、人間の認知は言語単独を超え、言葉と画像の両方で考える驚くべき能力を可能にします。このメカニズムに着想を得て、私たちは新しい推論パラダイムである多モーダル思考可視化（Multimodal Visualization-of-Thought, MVoT）を提案します。これは、MLLMにおいて推論トレースの画像可視化を生成することで視覚的思考を可能にします。高品質な可視化を保証するために、自己回帰MLLMにトークン不整合損失を導入します。この革新により、視覚的一貫性と忠実性が大幅に向上します。いくつかの動的空間推論タスクを通じてこのアプローチを検証しました。実験結果は、MVoTがさまざまなタスクで競争力のある性能を示すことを明らかにしています。さらに、CoTが失敗する最も困難なシナリオにおいても堅牢かつ信頼性の高い改善を示します。最終的に、MVoTは視覚的思考が言語的推論を効果的に補完できる複雑な推論タスクに新たな可能性をもたらします。

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Liら（Mon,）はこの問題を研究しました。

synapsesocial.com/papers/69449a892f0218eca9508317 https://doi.org/https://doi.org/10.48550/arxiv.2501.07542

Bookmark

View Full Paper