May 30, 2024Open Access

Lernen aus zufälligen Demonstrationen: Offline-Verstärkendes Lernen mit wichtigkeitsgesampelten Diffusionsmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Generative Modelle wie Diffusion wurden als Weltmodelle im Offline-Verstärkenden Lernen eingesetzt, um synthetische Daten für ein effektiveres Lernen zu erzeugen. Bestehende Arbeiten generieren entweder Diffusionsmodelle einmalig vor dem Training oder benötigen zusätzliche Interaktionsdaten für deren Aktualisierung. In dieser Arbeit schlagen wir einen neuartigen Ansatz für Offline-Verstärkendes Lernen mit geschlossenem Regelkreis-Policy-Assessment und Weltmodell-Anpassung vor. Er nutzt iterativ ein geführtes Diffusionsweltmodell, um die Offline-Zielpolitik direkt mit daraus gezogenen Aktionen zu bewerten, und führt dann ein wichtigkeitsgesampeltes Update des Weltmodells durch, um das Weltmodell adaptiv an die aktualisierte Politik anzupassen. Wir analysierten die Leistung der vorgeschlagenen Methode und lieferten eine obere Schranke für die Rückgabedifferenz zwischen unserer Methode und der realen Umgebung unter einer optimalen Politik. Das Ergebnis beleuchtet verschiedene Faktoren, die die Lernleistung beeinflussen. Bewertungen in der D4RL-Umgebung zeigen eine signifikante Verbesserung gegenüber den besten existierenden Ansätzen, insbesondere wenn nur zufällige oder mittelmäßige Demonstrationen verfügbar sind – was eine verbesserte Ausrichtung zwischen Weltmodell und Offline-Policyevaluation erfordert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zeyu Fang

Tian Lan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Lernen aus zufälligen Demonstrationen: Offline-Verstärkendes Lernen mit wichtigkeitsgesampelten Diffusionsmodellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider