Key points are not available for this paper at this time.
Groß angelegte Projekte wie RT-1 und weit verbreitete Gemeinschaftsinitiativen wie Open-X-Embodiment haben zur Vergrößerung des Umfangs an Roboter-Demonstrationsdaten beigetragen. Dennoch gibt es weiterhin Potenzial zur Verbesserung der Qualität, Quantität und Vielfalt dieser Daten. Obwohl Vision-Sprach-Modelle gezeigt haben, dass sie Demonstrationsdaten automatisch erzeugen können, ist ihr Nutzen bisher auf Umgebungen mit privilegierten Zustandsinformationen beschränkt, sie erfordern handgefertigte Fähigkeiten und beschränken sich auf Interaktionen mit wenigen Objektinstanzen. Wir schlagen Manipulate-Anything vor, eine skalierbare automatisierte Methode zur Generierung für reale robotische Manipulationen. Im Unterschied zu früheren Arbeiten kann unsere Methode in realen Umgebungen ohne privilegierte Zustandsinformationen, ohne handgefertigte Fähigkeiten arbeiten und beliebige statische Objekte manipulieren. Wir evaluieren unsere Methode anhand von zwei Setups. Erstens generiert Manipulate-Anything erfolgreich Trajektorien für alle 5 realen und 12 Simulationsaufgaben und übertrifft dabei deutlich bestehende Methoden wie VoxPoser. Zweitens können die Demonstrationen von Manipulate-Anything robustere Behavior-Cloning-Policies trainieren als menschliche Demonstrationen oder Daten, die von VoxPoser und Code-As-Policies generiert wurden. Wir sind der Ansicht, dass \ die skalierbare Methode sowohl zur Generierung von Daten für die Robotik als auch zur Lösung neuartiger Aufgaben im Zero-Shot-Setting sein kann.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiafei Duan
Wentao Yuan
Wilbert Pumacay
Building similarity graph...
Analyzing shared references across papers
Loading...
Duan et al. (Do, ) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e62ffdb6db6435875c1aaf — DOI: https://doi.org/10.48550/arxiv.2406.18915
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: