What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

世界認識プランニングナラティブが大規模視覚言語モデルのプランナーを強化する

Key Points

新しいプランニングナラティブフレームワークによりタスク成功率が60.7向上。
フレームワークは常識的推論を60.0、長期プランニングを70.0向上させる。
EB-ALFREDベンチマークでの評価が既存モデルに対する大幅な性能向上を示す。
オープンソースモデルがプロプライエタリシステムを凌駕し、LVLM能力の大幅な進展を示す。

Abstract

大規模視覚言語モデル（LVLM）は具現化されたプランニングタスクに有望ですが、未知の環境や複数段階の目標を含む複雑なシナリオでは苦戦します。現行のアプローチは環境を無視した模倣学習に依存しており、指示と環境コンテキストの切断を引き起こし、モデルはコンテキスト依存の指示に苦労し、長期的な相互作用において視覚的推論より補助的な手がかりに頼るようになります。本研究では、視覚的外観モデリング、空間推論、機能的抽象、構文的基盤の4つの認知能力を通じて包括的な環境理解をLVLMに注入し、カリキュラム学習を用いて生の視覚観察のみでモデルを開発・評価するフレームワーク「World-Aware Planning Narrative Enhancement（WAP）」を提案します。EB-ALFREDベンチマークでの評価により、Qwen2.5-VLがタスク成功率で60.7ポイントの絶対的改善を示し、特に常識的推論（+60.0）と長期プランニング（+70.0）で著しい向上を示しました。注目すべきは、提案するオープンソースモデルがGPT-4oやClaude-3.5-Sonnetといったプロプライエタリシステムを大きく上回っている点です。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Junhao Shi

Zhaoye Fei

Siyin Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

世界認識プランニングナラティブが大規模視覚言語モデルのプランナーを強化する

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider