Key points are not available for this paper at this time.
Das Erlernen eines generalistischen verkörperten Agenten, der mehrere Aufgaben ausführen kann, stellt Herausforderungen dar, die hauptsächlich auf den Mangel an action-beschrifteten Roboterdatensätzen zurückzuführen sind. Im Gegensatz dazu existieren zahlreiche menschliche Videos, die komplexe Aufgaben und Interaktionen mit der physischen Welt erfassen. Diese bieten vielversprechende Perspektiven für die Nutzung von aktionslosen menschlichen Videos zum Pre-Training und zur Wissensübertragung, um das Robotik-Policy-Lernen durch begrenzte Roboterdemonstrationen zu erleichtern. In diesem Papier stellen wir ein neuartiges Framework vor, das eine einheitliche diskrete Diffusion nutzt, um generatives Pre-Training auf menschlichen Videos und Policy-Feinabstimmung auf einer kleinen Anzahl von action-beschrifteten Robotervideos zu kombinieren. Wir beginnen damit, sowohl menschliche als auch Robotervideos in einheitliche Videotoken zu komprimieren. In der Pre-Training-Phase verwenden wir ein diskretes Diffusionsmodell mit einer Mask-and-Replace-Diffusionsstrategie zur Vorhersage zukünftiger Videotoken im latenten Raum. In der Feinabstimmungsphase nutzen wir die vorgestellten zukünftigen Videos, um das Lernen von niederschwelligen Aktionen zu leiten, das auf einem begrenzten Roboterdatensatz trainiert wird. Experimente zeigen, dass unsere Methode hochauflösende zukünftige Videos für die Planung generiert und die feinabgestimmten Politiken im Vergleich zu vorherigen state-of-the-art Ansätzen mit überlegener Generalisierungsfähigkeit verbessert. Unsere Projektwebseite ist verfügbar unter https://video-diff.github.io/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haoran He
Chenjia Bai
Pan Ling
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Donnerstag) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e781fab6db6435876f54c7 — DOI: https://doi.org/10.48550/arxiv.2402.14407
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: