What type of study is this?

This is a Experimental Study study.

October 8, 2025Open Access

視覚的具現化脳：マルチモーダル大規模言語モデルに空間で見て、考え、制御させる

Key Points

VeBrainはロボット制御を2D視覚空間におけるテキストベースのタスクとして再定式化し、マルチモーダル理解を強化します。
大規模な実験において、VeBrainはタスク性能で最大+50%の向上を示し、Qwen2.5-VLなど既存モデルを上回りました。
高品質なVeBrain-600kデータセットは、マルチモーダルチェーン・オブ・ソート戦略によって多様な能力を支えています。
VeBrainは実世界のロボットタスクにおいて特に脚付きロボットで強い柔軟性と構成能力を発揮します。

Abstract

マルチモーダル大規模言語モデル（MLLM）の著しい進歩は、脚付きロボットのような物理的実体への応用拡大への関心を高めています。これには通常、MLLMにマルチモーダル理解能力だけでなく、視覚空間的推論や物理的相互作用能力の統合が求められます。しかし既存の手法はこれらの能力の本質的な違いにより統一が困難です。本論文では、実世界における知覚、推論、制御の統一的枠組みとしてVisual Embodied Brain（VeBrain）を提案します。VeBrainはロボット制御を2D視覚空間における共通のテキストベースMLLMタスクへと再定式化し、異なるタスクの目的とマッピング空間を統一します。次に、MLLMのテキスト制御信号を実ロボットのモーションポリシーへ変換する新しいロボットアダプタを提案します。データ面では、VeBrainの多様な能力を包含する高品質な指示データセットVeBrain-600kを紹介します。VeBrain-600kでは数百時間にわたりデータ収集、整理、注釈付けを行い、マルチモーダルチェーン・オブ・ソート（CoT）を用いて異なる能力を一つの対話に混在させています。13のマルチモーダルベンチマークと5つの空間知能ベンチマークに関する大規模実験により、VeBrainはQwen2.5-VLなど既存MLLMを上回る優れた性能を示しました。脚付きロボットやロボットアームへの展開時には、既存手法に比べて強い適応性、柔軟性、および構成能力を発揮します。例えばQwen2.5-VLと比較して、VeBrainはMMVetで+5.6%の大幅な性能向上を達成し、脚付きロボットタスクでも平均+50%の増分を示しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

G.S. Luo

Ganlin Yang

Zhuandi Gong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

視覚的具現化脳：マルチモーダル大規模言語モデルに空間で見て、考え、制御させる

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider