What question did this study set out to answer?

本研究旨在考察机器人视觉-语言-动作模型的发展演变及其组成部分。

April 29, 2026

机器人领域端到端视觉-语言-动作（VLA）架构的发展演变

Key Points

本研究旨在考察机器人视觉-语言-动作模型的发展演变及其组成部分。
系统性分解VLA系统为感知编码器、融合机制和动作解码器。
对端到端模型与分层模型范式进行比较分析。
评估设计选择对泛化能力、样本效率和任务复杂性的影响。
识别影响VLA部署的语义基础和空间推理挑战。
评估不同架构范式之间零样本泛化和可解释性的权衡。

Abstract

视觉-语言-动作（VLA）模型代表了机器人学习中的一种根本性架构转变，用统一的框架取代了模块化的感知-推理-控制流水线，实现多模态理解与运动控制的联合优化。尽管大型语言模型（LLMs）促进了机器人中的自然语言基础，但核心挑战依然是如何在单一连贯架构内有效融合视觉感知、语言推理和连续动作生成。本文系统性地将现代VLA系统分解为三个关键组件，包括多模态感知编码器、跨模态融合机制和动作解码器。我们还批判性地评估了设计选择对泛化、样本效率和任务复杂性的影响。我们区分了两种主导架构范式：直接通过学习的表示将观测映射到动作的端到端模型，以及将任务分解为显式规划和执行阶段的分层模型。通过对零样本泛化、可解释性和长程性能的权衡比较分析，我们识别了语义基础、空间推理和模拟到真实转移的关键未决挑战，这些将决定VLA在现实部署中的可行性。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jingjing Pei

Xiaoyin Zheng

Yang Liu

Journals

Robot learning.

Actions

Institutions

Dalian University of Technology

The University of Texas at Arlington

Southern University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

机器人领域端到端视觉-语言-动作（VLA）架构的发展演变

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider