Key points are not available for this paper at this time.
Generative Modelle wie Diffusion wurden als Weltmodelle im Offline-Verstärkenden Lernen eingesetzt, um synthetische Daten für ein effektiveres Lernen zu erzeugen. Bestehende Arbeiten generieren entweder Diffusionsmodelle einmalig vor dem Training oder benötigen zusätzliche Interaktionsdaten für deren Aktualisierung. In dieser Arbeit schlagen wir einen neuartigen Ansatz für Offline-Verstärkendes Lernen mit geschlossenem Regelkreis-Policy-Assessment und Weltmodell-Anpassung vor. Er nutzt iterativ ein geführtes Diffusionsweltmodell, um die Offline-Zielpolitik direkt mit daraus gezogenen Aktionen zu bewerten, und führt dann ein wichtigkeitsgesampeltes Update des Weltmodells durch, um das Weltmodell adaptiv an die aktualisierte Politik anzupassen. Wir analysierten die Leistung der vorgeschlagenen Methode und lieferten eine obere Schranke für die Rückgabedifferenz zwischen unserer Methode und der realen Umgebung unter einer optimalen Politik. Das Ergebnis beleuchtet verschiedene Faktoren, die die Lernleistung beeinflussen. Bewertungen in der D4RL-Umgebung zeigen eine signifikante Verbesserung gegenüber den besten existierenden Ansätzen, insbesondere wenn nur zufällige oder mittelmäßige Demonstrationen verfügbar sind – was eine verbesserte Ausrichtung zwischen Weltmodell und Offline-Policyevaluation erfordert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zeyu Fang
Tian Lan
Building similarity graph...
Analyzing shared references across papers
Loading...
Fang et al. (Do,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e67bb1b6db643587605fc4 — DOI: https://doi.org/10.48550/arxiv.2405.19878
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: