大規模視覚言語モデル(LVLM)は具現化されたプランニングタスクに有望ですが、未知の環境や複数段階の目標を含む複雑なシナリオでは苦戦します。現行のアプローチは環境を無視した模倣学習に依存しており、指示と環境コンテキストの切断を引き起こし、モデルはコンテキスト依存の指示に苦労し、長期的な相互作用において視覚的推論より補助的な手がかりに頼るようになります。本研究では、視覚的外観モデリング、空間推論、機能的抽象、構文的基盤の4つの認知能力を通じて包括的な環境理解をLVLMに注入し、カリキュラム学習を用いて生の視覚観察のみでモデルを開発・評価するフレームワーク「World-Aware Planning Narrative Enhancement(WAP)」を提案します。EB-ALFREDベンチマークでの評価により、Qwen2.5-VLがタスク成功率で60.7ポイントの絶対的改善を示し、特に常識的推論(+60.0)と長期プランニング(+70.0)で著しい向上を示しました。注目すべきは、提案するオープンソースモデルがGPT-4oやClaude-3.5-Sonnetといったプロプライエタリシステムを大きく上回っている点です。
Building similarity graph...
Analyzing shared references across papers
Loading...
Junhao Shi
Zhaoye Fei
Siyin Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Shiら(Thu,)がこの問題を検討した。
www.synapsesocial.com/papers/68f04acce559138a1a06e7d0 — DOI: https://doi.org/10.48550/arxiv.2506.21230
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: