Key points are not available for this paper at this time.
In vielen realen Anwendungsfällen müssen Agenten aus einem Offline-Datensatz lernen, der durch eine vorherige Verhaltenspolitik gesammelt wurde. Ein solches Szenario führt naturgemäß zu einer Verteilungverschiebung zwischen der Verhaltenspolitik und der Zielpolitik, die trainiert wird – was eine konservative Politikumsetzung notwendig macht, um Instabilitäten und Überbewertungsfehler zu vermeiden. Autoregressive Weltmodelle bieten eine andere Lösung, indem sie synthetische, on-policy Erfahrungen generieren. In der Praxis müssen Modell-Rollouts jedoch stark gekürzt werden, um akkumulierte Fehler zu vermeiden. Als Alternative schlagen wir richtliniengeführte Diffusion vor. Unsere Methode nutzt Diffusionsmodelle, um vollständige Trajektorien unter der Verteilung des Verhaltens zu generieren, wobei eine Steuerung durch die Zielpolitik angewandt wird, um die synthetischen Erfahrungen näher an die Zielpolitik heranzuführen. Wir zeigen, dass richtliniengeführte Diffusion eine regulierte Form der Zielverteilung modelliert, die die Aktionswahrscheinlichkeit unter sowohl der Ziel- als auch der Verhaltenpolitik ausbalanciert, was zu plausiblen Trajektorien mit hoher Zielpolitikwahrscheinlichkeit führt, während gleichzeitig ein geringerer Dynamikfehler im Vergleich zu einem Offline-Weltmodell-Baseline beibehalten wird. Durch die Nutzung synthetischer Erfahrungen aus richtliniengeführter Diffusion als Direkt-Ersatz für reale Daten demonstrieren wir signifikante Verbesserungen in der Leistung bei einer Vielzahl standardmäßiger Offline-Verstärkungslernalgorithmen und -umgebungen. Unser Ansatz stellt eine effektive Alternative zu autoregressiven Offline-Weltmodellen dar und eröffnet die Möglichkeit zur kontrollierbaren Generierung synthetischer Trainingsdaten.
Building similarity graph...
Analyzing shared references across papers
Loading...
Matthew Thomas Jackson
Michael Matthews
Cong Lu
Building similarity graph...
Analyzing shared references across papers
Loading...
Jackson et al. (Tue,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e6febab6db643587678f4e — DOI: https://doi.org/10.48550/arxiv.2404.06356
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: