What type of study is this?

This is a Experimental Study study.

October 8, 2025Open Access

시각적 구현 뇌: 멀티모달 대형 언어 모델이 공간에서 보고, 생각하고, 제어하도록 하다

Key Points

VeBrain은 로봇 제어를 2D 시각 공간에서 텍스트 기반 과제로 재구성하여 멀티모달 이해를 향상시킵니다.
광범위한 실험에서 VeBrain은 Qwen2.5-VL과 같은 기존 모델들을 최대 +50%의 과제 성능 향상으로 능가했습니다.
고품질 VeBrain-600k 데이터셋은 멀티모달 사고의 연쇄 전략을 통해 다양한 능력을 지원합니다.
VeBrain은 특히 다리 달린 로봇에서 실제 로봇 과제에서 강력한 유연성과 조합 능력을 보여줍니다.

Abstract

멀티모달 대형 언어 모델(MLLM)의 놀라운 발전은 다리 달린 로봇과 같은 물리적 실체로의 확장에 대한 관심을 높이고 있습니다. 이는 일반적으로 MLLM이 다중모달 이해 능력뿐만 아니라 시각-공간 추론 및 물리적 상호작용 능력을 통합해야 함을 요구합니다. 그럼에도 기존 방법들은 이러한 능력들의 근본적인 차이 때문에 이를 통합하는 데 어려움을 겪고 있습니다. 본 논문에서는 실제 세계에서 인지, 추론, 제어를 위한 통합 프레임워크인 Visual Embodied Brain(VeBrain)을 제안합니다. VeBrain은 로봇 제어를 2D 시각 공간에서 공통의 텍스트 기반 MLLM 과제로 재구성하여 다양한 과제의 목표와 매핑 공간을 통일합니다. 그리고 MLLM으로부터의 텍스트 제어 신호를 실제 로봇의 모션 정책으로 변환하는 새로운 로봇 어댑터를 제안합니다. 데이터 관점에서 우리는 VeBrain의 다양한 능력을 포함하는 고품질 지시 데이터셋 VeBrain-600k를 소개합니다. VeBrain-600k에서는 수백 시간에 걸쳐 데이터를 수집, 선별, 주석 처리했으며, 멀티모달 사고의 연쇄(CoT)를 채택하여 다양한 능력을 단일 대화에 혼합했습니다. 13개의 멀티모달 벤치마크와 5개의 공간 지능 벤치마크에서의 광범위한 실험을 통해 VeBrain이 Qwen2.5-VL과 같은 기존 MLLM보다 우수한 성능을 보임을 입증했습니다. 다리 달린 로봇과 로봇 팔에 적용했을 때, VeBrain은 기존 방법에 비해 강력한 적응성, 유연성, 조합 능력을 나타냈습니다. 예를 들어 Qwen2.5-VL과 비교할 때 VeBrain은 MMVet에서 +5.6%의 상당한 향상을 달성했을 뿐만 아니라 다리 달린 로봇 과제에서 평균 +50%의 성능 향상을 보였습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

G.S. Luo

Ganlin Yang

Zhuandi Gong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

시각적 구현 뇌: 멀티모달 대형 언어 모델이 공간에서 보고, 생각하고, 제어하도록 하다

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider