视觉-语言-动作(VLA)模型代表了机器人学习中的一种根本性架构转变,用统一的框架取代了模块化的感知-推理-控制流水线,实现多模态理解与运动控制的联合优化。尽管大型语言模型(LLMs)促进了机器人中的自然语言基础,但核心挑战依然是如何在单一连贯架构内有效融合视觉感知、语言推理和连续动作生成。本文系统性地将现代VLA系统分解为三个关键组件,包括多模态感知编码器、跨模态融合机制和动作解码器。我们还批判性地评估了设计选择对泛化、样本效率和任务复杂性的影响。我们区分了两种主导架构范式:直接通过学习的表示将观测映射到动作的端到端模型,以及将任务分解为显式规划和执行阶段的分层模型。通过对零样本泛化、可解释性和长程性能的权衡比较分析,我们识别了语义基础、空间推理和模拟到真实转移的关键未决挑战,这些将决定VLA在现实部署中的可行性。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jingjing Pei
Xiaoyin Zheng
Yang Liu
Robot learning.
Dalian University of Technology
The University of Texas at Arlington
Southern University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Pei 等人(Mon,)研究了这一问题。
www.synapsesocial.com/papers/69f1a015edf4b46824806b3e — DOI: https://doi.org/10.55092/rl20260010
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: