멀티모달 대형 언어 모델(MLLM)의 놀라운 발전은 다리 달린 로봇과 같은 물리적 실체로의 확장에 대한 관심을 높이고 있습니다. 이는 일반적으로 MLLM이 다중모달 이해 능력뿐만 아니라 시각-공간 추론 및 물리적 상호작용 능력을 통합해야 함을 요구합니다. 그럼에도 기존 방법들은 이러한 능력들의 근본적인 차이 때문에 이를 통합하는 데 어려움을 겪고 있습니다. 본 논문에서는 실제 세계에서 인지, 추론, 제어를 위한 통합 프레임워크인 Visual Embodied Brain(VeBrain)을 제안합니다. VeBrain은 로봇 제어를 2D 시각 공간에서 공통의 텍스트 기반 MLLM 과제로 재구성하여 다양한 과제의 목표와 매핑 공간을 통일합니다. 그리고 MLLM으로부터의 텍스트 제어 신호를 실제 로봇의 모션 정책으로 변환하는 새로운 로봇 어댑터를 제안합니다. 데이터 관점에서 우리는 VeBrain의 다양한 능력을 포함하는 고품질 지시 데이터셋 VeBrain-600k를 소개합니다. VeBrain-600k에서는 수백 시간에 걸쳐 데이터를 수집, 선별, 주석 처리했으며, 멀티모달 사고의 연쇄(CoT)를 채택하여 다양한 능력을 단일 대화에 혼합했습니다. 13개의 멀티모달 벤치마크와 5개의 공간 지능 벤치마크에서의 광범위한 실험을 통해 VeBrain이 Qwen2.5-VL과 같은 기존 MLLM보다 우수한 성능을 보임을 입증했습니다. 다리 달린 로봇과 로봇 팔에 적용했을 때, VeBrain은 기존 방법에 비해 강력한 적응성, 유연성, 조합 능력을 나타냈습니다. 예를 들어 Qwen2.5-VL과 비교할 때 VeBrain은 MMVet에서 +5.6%의 상당한 향상을 달성했을 뿐만 아니라 다리 달린 로봇 과제에서 평균 +50%의 성능 향상을 보였습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
G.S. Luo
Ganlin Yang
Zhuandi Gong
Building similarity graph...
Analyzing shared references across papers
Loading...
Luo 등은 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e6bc5f38ca8e474d549ebe — DOI: https://doi.org/10.48550/arxiv.2506.00123
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: