May 25, 2024Open Access

Aprendizaje de Imitación Adversarial con Recompensa por Difusión

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El aprendizaje por imitación tiene como objetivo aprender una política observando demostraciones de expertos sin acceso a señales de recompensa de los entornos. El aprendizaje de imitación adversarial generativo (GAIL) formula el aprendizaje por imitación como aprendizaje adversarial, empleando una política generadora que aprende a imitar comportamientos expertos y un discriminador que aprende a distinguir las demostraciones de expertos de las trayectorias del agente. A pesar de sus resultados alentadores, el entrenamiento de GAIL suele ser frágil e inestable. Inspirado por el reciente predominio de los modelos de difusión en la generación de modelos, este trabajo propone Diffusion-Reward Adversarial Imitation Learning (DRAIL), que integra un modelo de difusión en GAIL, con el objetivo de producir recompensas más precisas y suaves para el aprendizaje de políticas. Específicamente, proponemos un clasificador discriminativo por difusión para construir un discriminador mejorado; luego, diseñamos recompensas por difusión basadas en la salida del clasificador para el aprendizaje de políticas. Realizamos experimentos extensos en navegación, manipulación y locomoción, verificando la efectividad de DRAIL en comparación con métodos previos de aprendizaje por imitación. Además, resultados experimentales adicionales demuestran la generalización y eficiencia en datos de DRAIL. Las funciones de recompensa aprendidas visualmente de GAIL y DRAIL sugieren que DRAIL puede producir recompensas más precisas y suaves.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chun-Mao Lai

Hsiang-Chun Wang

Ping-Chun Hsieh

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizaje de Imitación Adversarial con Recompensa por Difusión

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider