マルチモーダル大規模言語モデル(MLLM)の著しい進歩は、脚付きロボットのような物理的実体への応用拡大への関心を高めています。これには通常、MLLMにマルチモーダル理解能力だけでなく、視覚空間的推論や物理的相互作用能力の統合が求められます。しかし既存の手法はこれらの能力の本質的な違いにより統一が困難です。本論文では、実世界における知覚、推論、制御の統一的枠組みとしてVisual Embodied Brain(VeBrain)を提案します。VeBrainはロボット制御を2D視覚空間における共通のテキストベースMLLMタスクへと再定式化し、異なるタスクの目的とマッピング空間を統一します。次に、MLLMのテキスト制御信号を実ロボットのモーションポリシーへ変換する新しいロボットアダプタを提案します。データ面では、VeBrainの多様な能力を包含する高品質な指示データセットVeBrain-600kを紹介します。VeBrain-600kでは数百時間にわたりデータ収集、整理、注釈付けを行い、マルチモーダルチェーン・オブ・ソート(CoT)を用いて異なる能力を一つの対話に混在させています。13のマルチモーダルベンチマークと5つの空間知能ベンチマークに関する大規模実験により、VeBrainはQwen2.5-VLなど既存MLLMを上回る優れた性能を示しました。脚付きロボットやロボットアームへの展開時には、既存手法に比べて強い適応性、柔軟性、および構成能力を発揮します。例えばQwen2.5-VLと比較して、VeBrainはMMVetで+5.6%の大幅な性能向上を達成し、脚付きロボットタスクでも平均+50%の増分を示しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
G.S. Luo
Ganlin Yang
Zhuandi Gong
Building similarity graph...
Analyzing shared references across papers
Loading...
Luoら(Fri,)がこの問いを研究しました。
www.synapsesocial.com/papers/68e6bc5f38ca8e474d549ebe — DOI: https://doi.org/10.48550/arxiv.2506.00123
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: