Los puntos clave no están disponibles para este artículo en este momento.
Tras los grandes éxitos del aprendizaje por refuerzo profundo (DRL) en los últimos años, desarrollar métodos para acelerar los algoritmos de DRL en tareas más complejas y cercanas a las del mundo real se ha vuelto cada vez más importante. En particular, existe poca investigación sobre tareas de largo horizonte que contienen múltiples subtareas o pasos intermedios y que solo pueden proporcionar recompensas dispersas al finalizar la tarea. Este artículo sugiere 1) usar priors humanos para descomponer una tarea y proporcionar demostraciones abstractas, es decir, la secuencia correcta de pasos para guiar la exploración y el aprendizaje, y 2) ajustar los parámetros de exploración de forma adaptativa según el desempeño en línea de la política. Las ideas propuestas se implementan en tres algoritmos populares de DRL, y los resultados experimentales en tareas de mundo en cuadrícula y manipulación prueban el concepto y la efectividad de las técnicas propuestas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang Xiang
Zhigang Ji
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiang et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6c6ecb6db64358764564e — DOI: https://doi.org/10.18573/conf1.u
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: