May 1, 2024Open Access

Acelerando el aprendizaje por refuerzo con recompensas dispersas en múltiples pasos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Tras los grandes éxitos del aprendizaje por refuerzo profundo (DRL) en los últimos años, desarrollar métodos para acelerar los algoritmos de DRL en tareas más complejas y cercanas a las del mundo real se ha vuelto cada vez más importante. En particular, existe poca investigación sobre tareas de largo horizonte que contienen múltiples subtareas o pasos intermedios y que solo pueden proporcionar recompensas dispersas al finalizar la tarea. Este artículo sugiere 1) usar priors humanos para descomponer una tarea y proporcionar demostraciones abstractas, es decir, la secuencia correcta de pasos para guiar la exploración y el aprendizaje, y 2) ajustar los parámetros de exploración de forma adaptativa según el desempeño en línea de la política. Las ideas propuestas se implementan en tres algoritmos populares de DRL, y los resultados experimentales en tareas de mundo en cuadrícula y manipulación prueban el concepto y la efectividad de las técnicas propuestas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yang Xiang

Zhigang Ji

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Acelerando el aprendizaje por refuerzo con recompensas dispersas en múltiples pasos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider