视觉语言动作(VLA)模型代表了机器人技术中的一场变革,旨在将视觉感知、自然语言理解和实体控制统一于单一的学习框架内。本文综述了VLA范式的全面且前瞻性的综合,特别强调机器人操控和指令驱动的自主性。我们全面分析了102个VLA模型、26个基础数据集和12个仿真平台,这些构成了VLA模型开发与评估的整体环境。这些模型被归类为关键的架构范式,每种范式反映了在机器人系统中整合视觉、语言与控制的不同策略。基础数据集通过基于任务复杂性、多模态多样性及数据规模的新颖指标进行评估,从而实现其在通用策略学习中的适用性比较。我们引入一个二维特征框架,根据语义丰富度和多模态对齐度对数据集进行组织,揭示了当前数据领域未充分探索的区域。仿真环境则根据其生成大规模数据的效率、促进仿真到现实迁移的能力及支持任务的多样性进行评估。通过学术界与工业界的贡献,我们识别了持续存在的挑战,并提出了战略方向,如可扩展的预训练协议、模块化架构设计以及稳健的多模态对齐策略。该综述不仅作为技术参考,也作为推进具身智能和机器人控制的概念路线图,提供了从数据集生成到通用机器人代理现实部署的全方位洞见。
Building similarity graph...
Analyzing shared references across papers
Loading...
Muhayy Din
Waseem Akram
Lyes Saad Saoud
Building similarity graph...
Analyzing shared references across papers
Loading...
Din 等人(Mon,)研究了这一问题。
www.synapsesocial.com/papers/68e8439a9989581a2fd4e300 — DOI: https://doi.org/10.48550/arxiv.2507.10672
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: