Key points are not available for this paper at this time.
In dieser Arbeit verfolgen wir das Ziel, eine einheitliche vision-basierte Strategie für eine mehrfingrige Roboterhand zu erlernen, um verschiedene Objekte in unterschiedlichen Positionen zu manipulieren. Obwohl frühere Arbeiten gezeigt haben, dass menschliche Videos das Lernen von Strategien unterstützen können, war die Leistungssteigerung durch physikalisch unplausible Trajektorien, die aus Videos extrahiert wurden, begrenzt. Darüber hinaus schränkt die Abhängigkeit von privilegierten Objektinformationen wie den tatsächlichen Objektzuständen die Anwendbarkeit in realistischen Szenarien weiter ein. Um diese Einschränkungen zu überwinden, schlagen wir ein neues Framework namens ViViDex vor, um das Lernen vision-basierter Strategien aus menschlichen Videos zu verbessern. Zunächst verwenden wir Verstärkendes Lernen mit trajektoriengeführten Belohnungen, um zustandsbasierte Strategien für jedes Video zu trainieren und dadurch sowohl visuell natürliche als auch physikalisch plausible Trajektorien aus dem Video zu gewinnen. Anschließend führen wir erfolgreiche Episoden aus zustandsbasierten Strategien aus und trainieren ohne Verwendung privilegierter Informationen eine einheitliche visuelle Strategie. Eine Koordinatentransformationsmethode wird vorgeschlagen, um die Leistung signifikant zu steigern. Wir evaluieren unsere Methode an drei Aufgaben der geschickten Manipulation und demonstrieren eine deutliche Verbesserung gegenüber den aktuell besten Algorithmen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zerui Chen
Shizhe Chen
Etienne Arlaud
Mohamed bin Zayed University of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (Wed,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e6dc34b6db6435876588c9 — DOI: https://doi.org/10.48550/arxiv.2404.15709