具身智能作为人工智能发展的关键领域,正面临数据异构性、强物理约束及交互昂贵等挑战,难以直接复制大语言模型的“大规模预训练+规模定律”范式。本文从数据、模型、系统与评测四个维度全面梳理了具身智能的前沿技术演进。在数据层面,文章提出了“数据金字塔”结构,主张利用底层庞大的仿真与互联网视频数据构建物理常识,通过中层人类交互数据进行行为映射,最终以顶层少量真机数据实现技能落地。在模型层面,探讨了主流视觉-语言-动作模型(VLA)的扩展瓶颈,并指出“世界模型”作为具身预训练的新方向,能够通过模拟环境动力学与未来预演,赋予智能体更强的物理直觉与泛化能力。在系统层面,观察到架构正从单一端到端模型向类操作系统的“分层架构”演进,实现高层语义规划与底层运动控制的解耦。最后,本文审视了当前评测体系在真实性与可复现性上的挑战,并对行走与操作一体化及具身智能“ImageNet时刻”的到来进行了展望。
Building similarity graph...
Analyzing shared references across papers
Loading...
Mu Yao
Zhao Hao
Hu Ruizhen
Journal of Image and Graphics
Building similarity graph...
Analyzing shared references across papers
Loading...
Yao et al. (Thu,) studied this question.
www.synapsesocial.com/papers/69d893896c1944d70ce047fe — DOI: https://doi.org/10.11834/jig.260059