April 9, 2024Open Access

Richtliniengeführte Diffusion

Key Points

Key points are not available for this paper at this time.

Abstract

In vielen realen Anwendungsfällen müssen Agenten aus einem Offline-Datensatz lernen, der durch eine vorherige Verhaltenspolitik gesammelt wurde. Ein solches Szenario führt naturgemäß zu einer Verteilungverschiebung zwischen der Verhaltenspolitik und der Zielpolitik, die trainiert wird – was eine konservative Politikumsetzung notwendig macht, um Instabilitäten und Überbewertungsfehler zu vermeiden. Autoregressive Weltmodelle bieten eine andere Lösung, indem sie synthetische, on-policy Erfahrungen generieren. In der Praxis müssen Modell-Rollouts jedoch stark gekürzt werden, um akkumulierte Fehler zu vermeiden. Als Alternative schlagen wir richtliniengeführte Diffusion vor. Unsere Methode nutzt Diffusionsmodelle, um vollständige Trajektorien unter der Verteilung des Verhaltens zu generieren, wobei eine Steuerung durch die Zielpolitik angewandt wird, um die synthetischen Erfahrungen näher an die Zielpolitik heranzuführen. Wir zeigen, dass richtliniengeführte Diffusion eine regulierte Form der Zielverteilung modelliert, die die Aktionswahrscheinlichkeit unter sowohl der Ziel- als auch der Verhaltenpolitik ausbalanciert, was zu plausiblen Trajektorien mit hoher Zielpolitikwahrscheinlichkeit führt, während gleichzeitig ein geringerer Dynamikfehler im Vergleich zu einem Offline-Weltmodell-Baseline beibehalten wird. Durch die Nutzung synthetischer Erfahrungen aus richtliniengeführter Diffusion als Direkt-Ersatz für reale Daten demonstrieren wir signifikante Verbesserungen in der Leistung bei einer Vielzahl standardmäßiger Offline-Verstärkungslernalgorithmen und -umgebungen. Unser Ansatz stellt eine effektive Alternative zu autoregressiven Offline-Weltmodellen dar und eröffnet die Möglichkeit zur kontrollierbaren Generierung synthetischer Trainingsdaten.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Matthew Thomas Jackson

Michael Matthews

Cong Lu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Richtliniengeführte Diffusion

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider