Chain-of-Thought(CoT)プロンプティングは、大規模言語モデル(LLM)および多モーダル大規模言語モデル(MLLM)における複雑な推論を強化するために非常に効果的であることが証明されています。しかしながら、複雑な空間推論タスクでは困難を伴います。それでも、人間の認知は言語単独を超え、言葉と画像の両方で考える驚くべき能力を可能にします。このメカニズムに着想を得て、私たちは新しい推論パラダイムである多モーダル思考可視化(Multimodal Visualization-of-Thought, MVoT)を提案します。これは、MLLMにおいて推論トレースの画像可視化を生成することで視覚的思考を可能にします。高品質な可視化を保証するために、自己回帰MLLMにトークン不整合損失を導入します。この革新により、視覚的一貫性と忠実性が大幅に向上します。いくつかの動的空間推論タスクを通じてこのアプローチを検証しました。実験結果は、MVoTがさまざまなタスクで競争力のある性能を示すことを明らかにしています。さらに、CoTが失敗する最も困難なシナリオにおいても堅牢かつ信頼性の高い改善を示します。最終的に、MVoTは視覚的思考が言語的推論を効果的に補完できる複雑な推論タスクに新たな可能性をもたらします。
Liら(Mon,)はこの問題を研究しました。