尽管基础模型在语言和视觉方面显示出显著进展,但现有的视觉-语言模型(VLMs)在空间和具身理解能力方面仍有限。将VLMs转移到具身领域揭示了模态、预训练分布和训练目标之间的根本不匹配,导致动作理解和生成成为通向通用人工智能(AGI)的核心瓶颈。我们提出了WALL-OSS,一种端到端的具身基础模型,利用大规模多模态预训练实现(1)具身感知的视觉-语言理解,(2)强大的语言-动作关联,以及(3)稳健的操作能力。我们的方法采用紧耦合架构和多策略训练课程,实现了统一的跨层级链式思维(CoT),无缝整合指令推理、子目标分解和细粒度动作合成于单一可微分框架内。我们的结果表明,WALL-OSS在复杂长时任务操作中取得高成功率,展示了强大的指令执行能力、复杂理解与推理能力,且优于强基线,提供了一个从VLMs到具身基础模型的可靠且可扩展路径。
Building similarity graph...
Analyzing shared references across papers
Loading...
Andy Zhai
B. J. Liu
Baijun Fang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhai 等人(Mon,)研究了这一问题。
www.synapsesocial.com/papers/68ecfebf950606aabec095df — DOI: https://doi.org/10.48550/arxiv.2509.11766
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: