What type of study is this?

This is a Systematic Review study.

October 9, 2025Open Access

机器人操控中的视觉语言动作模型：系统综述

Key Points

综述综合了102个VLA模型和26个数据集的见解，以增强机器人操控能力。
基础数据集依据任务复杂性和多模态对齐度进行评估，确保政策学习的有效性。
提出了一个基于语义丰富度分类数据集的框架，揭示了当前数据领域中的空白，有助于更好地训练机器人。
评估了仿真平台在现实迁移中的作用及其支持任务的多样性。

Abstract

视觉语言动作（VLA）模型代表了机器人技术中的一场变革，旨在将视觉感知、自然语言理解和实体控制统一于单一的学习框架内。本文综述了VLA范式的全面且前瞻性的综合，特别强调机器人操控和指令驱动的自主性。我们全面分析了102个VLA模型、26个基础数据集和12个仿真平台，这些构成了VLA模型开发与评估的整体环境。这些模型被归类为关键的架构范式，每种范式反映了在机器人系统中整合视觉、语言与控制的不同策略。基础数据集通过基于任务复杂性、多模态多样性及数据规模的新颖指标进行评估，从而实现其在通用策略学习中的适用性比较。我们引入一个二维特征框架，根据语义丰富度和多模态对齐度对数据集进行组织，揭示了当前数据领域未充分探索的区域。仿真环境则根据其生成大规模数据的效率、促进仿真到现实迁移的能力及支持任务的多样性进行评估。通过学术界与工业界的贡献，我们识别了持续存在的挑战，并提出了战略方向，如可扩展的预训练协议、模块化架构设计以及稳健的多模态对齐策略。该综述不仅作为技术参考，也作为推进具身智能和机器人控制的概念路线图，提供了从数据集生成到通用机器人代理现实部署的全方位洞见。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Muhayy Din

Waseem Akram

Lyes Saad Saoud

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

机器人操控中的视觉语言动作模型：系统综述

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider