February 22, 2024Open Access

Groß angelegtes Video-Pre-Training ohne Aktionen mittels diskreter Diffusion zur effizienten Politikl Lernu

Key Points

Key points are not available for this paper at this time.

Abstract

Das Erlernen eines generalistischen verkörperten Agenten, der mehrere Aufgaben ausführen kann, stellt Herausforderungen dar, die hauptsächlich auf den Mangel an action-beschrifteten Roboterdatensätzen zurückzuführen sind. Im Gegensatz dazu existieren zahlreiche menschliche Videos, die komplexe Aufgaben und Interaktionen mit der physischen Welt erfassen. Diese bieten vielversprechende Perspektiven für die Nutzung von aktionslosen menschlichen Videos zum Pre-Training und zur Wissensübertragung, um das Robotik-Policy-Lernen durch begrenzte Roboterdemonstrationen zu erleichtern. In diesem Papier stellen wir ein neuartiges Framework vor, das eine einheitliche diskrete Diffusion nutzt, um generatives Pre-Training auf menschlichen Videos und Policy-Feinabstimmung auf einer kleinen Anzahl von action-beschrifteten Robotervideos zu kombinieren. Wir beginnen damit, sowohl menschliche als auch Robotervideos in einheitliche Videotoken zu komprimieren. In der Pre-Training-Phase verwenden wir ein diskretes Diffusionsmodell mit einer Mask-and-Replace-Diffusionsstrategie zur Vorhersage zukünftiger Videotoken im latenten Raum. In der Feinabstimmungsphase nutzen wir die vorgestellten zukünftigen Videos, um das Lernen von niederschwelligen Aktionen zu leiten, das auf einem begrenzten Roboterdatensatz trainiert wird. Experimente zeigen, dass unsere Methode hochauflösende zukünftige Videos für die Planung generiert und die feinabgestimmten Politiken im Vergleich zu vorherigen state-of-the-art Ansätzen mit überlegener Generalisierungsfähigkeit verbessert. Unsere Projektwebseite ist verfügbar unter https://video-diff.github.io/.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoran He

Chenjia Bai

Pan Ling

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Groß angelegtes Video-Pre-Training ohne Aktionen mittels diskreter Diffusion zur effizienten Politikl Lernu

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider