Key points are not available for this paper at this time.
Imitationslernen zielt darauf ab, eine Strategie zu erlernen, indem Experten-Demonstrationen beobachtet werden, ohne Zugang zu Belohnungssignalen aus der Umgebung zu haben. Generative adversarielle Imitationslernen (GAIL) formuliert Imitationslernen als gegnerisches Lernen, bei dem eine Generator-Strategie lernt, das Verhalten des Experten zu imitieren, und ein Diskriminator lernt, die Expertendemonstrationen von Agenten-Trajektorien zu unterscheiden. Trotz ermutigender Ergebnisse ist das Training von GAIL oft instabil und anfällig. Inspiriert von der jüngsten Dominanz von Diffusionsmodellen im generativen Modellieren schlägt diese Arbeit Diffusions-Belohnungs Gegnerschaftliches Imitationslernen (DRAIL) vor, das ein Diffusionsmodell in GAIL integriert, um präzisere und gleichmäßigere Belohnungen für das Strategielernen zu erzeugen. Konkret schlagen wir einen diffusionsbasierten diskriminativen Klassifikator vor, um einen verbesserten Diskriminator zu konstruieren; anschließend entwerfen wir Diffusionsbelohnungen basierend auf der Ausgabe des Klassifikators für das Strategielernen. Wir führen umfangreiche Experimente in Navigation, Manipulation und Fortbewegung durch und bestätigen die Wirksamkeit von DRAIL im Vergleich zu vorherigen Imitationslernmethode. Darüber hinaus zeigen zusätzliche experimentelle Ergebnisse die Generalisierbarkeit und Dateneffizienz von DRAIL. Visualisierte gelernte Belohnungsfunktionen von GAIL und DRAIL legen nahe, dass DRAIL präzisere und fließendere Belohnungen erzeugen kann.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chun-Mao Lai
Hsiang-Chun Wang
Ping-Chun Hsieh
Building similarity graph...
Analyzing shared references across papers
Loading...
Lai et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e686d2b6db64358760fe4e — DOI: https://doi.org/10.48550/arxiv.2405.16194
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: