May 25, 2024Open Access

Apprentissage par imitation adversaire basé sur la diffusion-récompense

Key Points

Key points are not available for this paper at this time.

Abstract

L'apprentissage par imitation vise à apprendre une politique à partir de l'observation de démonstrations d'experts sans accès aux signaux de récompense des environnements. L'apprentissage par imitation adversaire génératif (GAIL) formule l'apprentissage par imitation comme un apprentissage adversaire, utilisant une politique génératrice apprenant à imiter les comportements experts et un discriminateur apprenant à distinguer les démonstrations d'experts des trajectoires de l'agent. Malgré ses résultats encourageants, l'entraînement de GAIL est souvent fragile et instable. Inspiré par la récente prédominance des modèles de diffusion en modélisation générative, ce travail propose le Diffusion-Reward Adversarial Imitation Learning (DRAIL), qui intègre un modèle de diffusion dans GAIL, visant à produire des récompenses plus précises et plus lisses pour l'apprentissage de la politique. Plus précisément, nous proposons un classificateur discriminatif par diffusion pour construire un discriminateur amélioré ; ensuite, nous concevons des récompenses par diffusion basées sur la sortie du classificateur pour l'apprentissage de la politique. Nous réalisons des expériences approfondies en navigation, manipulation et locomotion, vérifiant l'efficacité de DRAIL par rapport aux méthodes antérieures d'apprentissage par imitation. De plus, des résultats expérimentaux supplémentaires démontrent la généralisabilité et l'efficacité en données de DRAIL. Les fonctions de récompense apprises visualisées de GAIL et DRAIL suggèrent que DRAIL peut produire des récompenses plus précises et plus lisses.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chun-Mao Lai

Hsiang-Chun Wang

Ping-Chun Hsieh

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Apprentissage par imitation adversaire basé sur la diffusion-récompense

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider