具身智能作为人工智能发展的关键领域,正面临数据异构性、强物理约束及交互昂贵等挑战,难以直接复制大语言模型的“大规模预训练+规模定律”范式。本文从数据、模型、系统与评测四个维度全面梳理了具身智能的前沿技术演进。在数据层面,文章提出了“数据金字塔”结构,主张利用底层庞大的仿真与互联网视频数据构建物理常识,通过中层人类交互数据进行行为映射,最终以顶层少量真机数据实现技能落地。在模型层面,探讨了主流视觉-语言-动作模型(VLA)的扩展瓶颈,并指出“世界模型”作为具身预训练的新方向,能够通过模拟环境动力学与未来预演,赋予智能体更强的物理直觉与泛化能力。在系统层面,观察到架构正从单一端到端模型向类操作系统的“分层架构”演进,实现高层语义规划与底层运动控制的解耦。最后,本文审视了当前评测体系在真实性与可复现性上的挑战,并对行走与操作一体化及具身智能“ImageNet时刻”的到来进行了展望。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yao et al. (Thu,) studied this question.
www.synapsesocial.com/papers/69d893896c1944d70ce047fe — DOI: https://doi.org/10.11834/jig.260059
Mu Yao
Zhao Hao
Hu Ruizhen
Journal of Image and Graphics
Building similarity graph...
Analyzing shared references across papers
Loading...