What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

点燃VLMs迈向具身空间

Key Points

WALL-OSS达成强大的语言-动作关联，促进更佳的操作能力。
该模型表现出复杂的理解和推理技能，超越现有基线。
紧耦合架构允许无缝统一指令推理与动作合成。
实证结果显示在长时任务操作中获得高成功率，证明了模型的有效性。

Abstract

尽管基础模型在语言和视觉方面显示出显著进展，但现有的视觉-语言模型（VLMs）在空间和具身理解能力方面仍有限。将VLMs转移到具身领域揭示了模态、预训练分布和训练目标之间的根本不匹配，导致动作理解和生成成为通向通用人工智能（AGI）的核心瓶颈。我们提出了WALL-OSS，一种端到端的具身基础模型，利用大规模多模态预训练实现（1）具身感知的视觉-语言理解，（2）强大的语言-动作关联，以及（3）稳健的操作能力。我们的方法采用紧耦合架构和多策略训练课程，实现了统一的跨层级链式思维（CoT），无缝整合指令推理、子目标分解和细粒度动作合成于单一可微分框架内。我们的结果表明，WALL-OSS在复杂长时任务操作中取得高成功率，展示了强大的指令执行能力、复杂理解与推理能力，且优于强基线，提供了一个从VLMs到具身基础模型的可靠且可扩展路径。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Andy Zhai

B. J. Liu

Baijun Fang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

点燃VLMs迈向具身空间

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider