September 16, 2024Open Access

Explorador Curioso: una Estrategia de Exploración Comprobable en el Aprendizaje de Políticas

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Una suposición de cobertura es crítica con los métodos de gradiente de política, porque aunque la función objetivo es insensible a actualizaciones en estados poco probables, el agente puede necesitar mejoras en esos estados para alcanzar un rendimiento casi óptimo. Sin embargo, esta suposición puede no ser factible en ciertos entornos, por ejemplo en el aprendizaje en línea, o cuando los reinicios son posibles únicamente desde un estado inicial fijo. En estos casos, algoritmos clásicos de gradiente de política como REINFORCE pueden presentar malas propiedades de convergencia y eficiencia en el uso de muestras. Explorador Curioso es una estrategia iterativa de exploración pura en el espacio de estados que mejora la cobertura de cualquier distribución de reinicio ρ. Usando ρ y recompensas intrínsecas, Explorador Curioso produce una secuencia de políticas, cada una más exploratoria que la anterior, y genera una distribución de reinicio con cobertura basada en la distribución de visitas a estados de las políticas exploratorias. Los principales resultados de este artículo son un límite teórico superior sobre la frecuencia con que una política óptima visita estados poco visitados, y un límite sobre el error del retorno obtenido por REINFORCE sin ninguna suposición de cobertura. Finalmente, realizamos estudios de ablación con REINFORCE y TRPO en dos tareas de exploración difíciles, para apoyar la afirmación de que Explorador Curioso puede mejorar el desempeño de algoritmos de gradiente de política muy diferentes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Marco Miani

Maurizio Parton

Marco Romito

Journals

IEEE Transactions on Pattern Analysis and Machine Intelligence

Actions

Institutions

Technical University of Denmark

University of Pisa

University of Chieti-Pescara

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Explorador Curioso: una Estrategia de Exploración Comprobable en el Aprendizaje de Políticas

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study