Los puntos clave no están disponibles para este artículo en este momento.
El aprendizaje por imitación tiene como objetivo aprender una política observando demostraciones de expertos sin acceso a señales de recompensa de los entornos. El aprendizaje de imitación adversarial generativo (GAIL) formula el aprendizaje por imitación como aprendizaje adversarial, empleando una política generadora que aprende a imitar comportamientos expertos y un discriminador que aprende a distinguir las demostraciones de expertos de las trayectorias del agente. A pesar de sus resultados alentadores, el entrenamiento de GAIL suele ser frágil e inestable. Inspirado por el reciente predominio de los modelos de difusión en la generación de modelos, este trabajo propone Diffusion-Reward Adversarial Imitation Learning (DRAIL), que integra un modelo de difusión en GAIL, con el objetivo de producir recompensas más precisas y suaves para el aprendizaje de políticas. Específicamente, proponemos un clasificador discriminativo por difusión para construir un discriminador mejorado; luego, diseñamos recompensas por difusión basadas en la salida del clasificador para el aprendizaje de políticas. Realizamos experimentos extensos en navegación, manipulación y locomoción, verificando la efectividad de DRAIL en comparación con métodos previos de aprendizaje por imitación. Además, resultados experimentales adicionales demuestran la generalización y eficiencia en datos de DRAIL. Las funciones de recompensa aprendidas visualmente de GAIL y DRAIL sugieren que DRAIL puede producir recompensas más precisas y suaves.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chun-Mao Lai
Hsiang-Chun Wang
Ping-Chun Hsieh
Building similarity graph...
Analyzing shared references across papers
Loading...
Lai et al. (sáb,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e686d2b6db64358760fe4e — DOI: https://doi.org/10.48550/arxiv.2405.16194
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: