June 27, 2024Open Access

Manipulate-Anything: Automatisierung realer Roboter mittels Vision-Sprach-Modellen

Key Points

Key points are not available for this paper at this time.

Abstract

Groß angelegte Projekte wie RT-1 und weit verbreitete Gemeinschaftsinitiativen wie Open-X-Embodiment haben zur Vergrößerung des Umfangs an Roboter-Demonstrationsdaten beigetragen. Dennoch gibt es weiterhin Potenzial zur Verbesserung der Qualität, Quantität und Vielfalt dieser Daten. Obwohl Vision-Sprach-Modelle gezeigt haben, dass sie Demonstrationsdaten automatisch erzeugen können, ist ihr Nutzen bisher auf Umgebungen mit privilegierten Zustandsinformationen beschränkt, sie erfordern handgefertigte Fähigkeiten und beschränken sich auf Interaktionen mit wenigen Objektinstanzen. Wir schlagen Manipulate-Anything vor, eine skalierbare automatisierte Methode zur Generierung für reale robotische Manipulationen. Im Unterschied zu früheren Arbeiten kann unsere Methode in realen Umgebungen ohne privilegierte Zustandsinformationen, ohne handgefertigte Fähigkeiten arbeiten und beliebige statische Objekte manipulieren. Wir evaluieren unsere Methode anhand von zwei Setups. Erstens generiert Manipulate-Anything erfolgreich Trajektorien für alle 5 realen und 12 Simulationsaufgaben und übertrifft dabei deutlich bestehende Methoden wie VoxPoser. Zweitens können die Demonstrationen von Manipulate-Anything robustere Behavior-Cloning-Policies trainieren als menschliche Demonstrationen oder Daten, die von VoxPoser und Code-As-Policies generiert wurden. Wir sind der Ansicht, dass \ die skalierbare Methode sowohl zur Generierung von Daten für die Robotik als auch zur Lösung neuartiger Aufgaben im Zero-Shot-Setting sein kann.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiafei Duan

Wentao Yuan

Wilbert Pumacay

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Manipulate-Anything: Automatisierung realer Roboter mittels Vision-Sprach-Modellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider