Key points are not available for this paper at this time.
L'apprentissage par imitation vise à apprendre une politique à partir de l'observation de démonstrations d'experts sans accès aux signaux de récompense des environnements. L'apprentissage par imitation adversaire génératif (GAIL) formule l'apprentissage par imitation comme un apprentissage adversaire, utilisant une politique génératrice apprenant à imiter les comportements experts et un discriminateur apprenant à distinguer les démonstrations d'experts des trajectoires de l'agent. Malgré ses résultats encourageants, l'entraînement de GAIL est souvent fragile et instable. Inspiré par la récente prédominance des modèles de diffusion en modélisation générative, ce travail propose le Diffusion-Reward Adversarial Imitation Learning (DRAIL), qui intègre un modèle de diffusion dans GAIL, visant à produire des récompenses plus précises et plus lisses pour l'apprentissage de la politique. Plus précisément, nous proposons un classificateur discriminatif par diffusion pour construire un discriminateur amélioré ; ensuite, nous concevons des récompenses par diffusion basées sur la sortie du classificateur pour l'apprentissage de la politique. Nous réalisons des expériences approfondies en navigation, manipulation et locomotion, vérifiant l'efficacité de DRAIL par rapport aux méthodes antérieures d'apprentissage par imitation. De plus, des résultats expérimentaux supplémentaires démontrent la généralisabilité et l'efficacité en données de DRAIL. Les fonctions de récompense apprises visualisées de GAIL et DRAIL suggèrent que DRAIL peut produire des récompenses plus précises et plus lisses.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chun-Mao Lai
Hsiang-Chun Wang
Ping-Chun Hsieh
Building similarity graph...
Analyzing shared references across papers
Loading...
Lai et al. (Sam,) ont étudié cette question.
www.synapsesocial.com/papers/68e686d2b6db64358760fe4e — DOI: https://doi.org/10.48550/arxiv.2405.16194
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: