What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

VLMs in den verkörperten Raum bringen

Key Points

WALL-OSS erreicht starke Sprach-Aktions-Assoziation und erleichtert bessere Manipulationsfähigkeiten.
Das Modell zeigt komplexe Verständnis- und Reasoning-Fähigkeiten, die bestehende Baselines übertreffen.
Die eng gekoppelte Architektur ermöglicht eine nahtlose Vereinigung von Instruktions-Reasoning und Aktionssynthese.
Empirische Ergebnisse weisen auf hohe Erfolgsquoten bei Langzeit-Manipulationen hin und zeigen die Effektivität des Modells.

Abstract

Während Foundation-Modelle bemerkenswerte Fortschritte in Sprache und Vision zeigen, verfügen bestehende Vision-Language-Modelle (VLMs) weiterhin über ein begrenztes räumliches und verkörpertes Verständnis. Die Übertragung von VLMs auf verkörperte Domänen offenbart grundlegende Diskrepanzen zwischen Modalitäten, Pretraining-Verteilungen und Trainingszielen, wobei das Verstehen und Generieren von Aktionen als zentrales Nadelöhr auf dem Weg zu AGI verbleibt. Wir stellen WALL-OSS vor, ein End-to-End verkörpertes Foundation-Modell, das groß angelegtes multimodales Pretraining nutzt, um (1) verkörperungsbewusstes Vision-Language-Verständnis, (2) starke Sprach-Aktions-Assoziation und (3) robuste Manipulationsfähigkeit zu erreichen. Unser Ansatz verwendet eine eng gekoppelte Architektur und einen multi-strategischen Trainingscurriculum, der Unified Cross-Level CoT ermöglicht – eine nahtlose Vereinigung von Instruktions-Reasoning, Unterzielzerlegung und feinkörniger Aktionssynthese in einem einzigen differenzierbaren Rahmen. Unsere Ergebnisse zeigen, dass WALL-OSS hohen Erfolg bei komplexen Langzeit-Manipulationen erzielt, starke Fähigkeit zur Befolgung von Anweisungen, komplexes Verständnis und Reasoning demonstriert und bestehende starke Baselines übertrifft, wodurch ein verlässlicher und skalierbarer Pfad von VLMs zu verkörperten Foundation-Modellen geschaffen wird.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Andy Zhai

B. J. Liu

Baijun Fang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VLMs in den verkörperten Raum bringen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider