Während Foundation-Modelle bemerkenswerte Fortschritte in Sprache und Vision zeigen, verfügen bestehende Vision-Language-Modelle (VLMs) weiterhin über ein begrenztes räumliches und verkörpertes Verständnis. Die Übertragung von VLMs auf verkörperte Domänen offenbart grundlegende Diskrepanzen zwischen Modalitäten, Pretraining-Verteilungen und Trainingszielen, wobei das Verstehen und Generieren von Aktionen als zentrales Nadelöhr auf dem Weg zu AGI verbleibt. Wir stellen WALL-OSS vor, ein End-to-End verkörpertes Foundation-Modell, das groß angelegtes multimodales Pretraining nutzt, um (1) verkörperungsbewusstes Vision-Language-Verständnis, (2) starke Sprach-Aktions-Assoziation und (3) robuste Manipulationsfähigkeit zu erreichen. Unser Ansatz verwendet eine eng gekoppelte Architektur und einen multi-strategischen Trainingscurriculum, der Unified Cross-Level CoT ermöglicht – eine nahtlose Vereinigung von Instruktions-Reasoning, Unterzielzerlegung und feinkörniger Aktionssynthese in einem einzigen differenzierbaren Rahmen. Unsere Ergebnisse zeigen, dass WALL-OSS hohen Erfolg bei komplexen Langzeit-Manipulationen erzielt, starke Fähigkeit zur Befolgung von Anweisungen, komplexes Verständnis und Reasoning demonstriert und bestehende starke Baselines übertrifft, wodurch ein verlässlicher und skalierbarer Pfad von VLMs zu verkörperten Foundation-Modellen geschaffen wird.
Building similarity graph...
Analyzing shared references across papers
Loading...
Andy Zhai
B. J. Liu
Baijun Fang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhai et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68ecfebf950606aabec095df — DOI: https://doi.org/10.48550/arxiv.2509.11766
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: