Los puntos clave no están disponibles para este artículo en este momento.
Una suposición de cobertura es crítica con los métodos de gradiente de política, porque aunque la función objetivo es insensible a actualizaciones en estados poco probables, el agente puede necesitar mejoras en esos estados para alcanzar un rendimiento casi óptimo. Sin embargo, esta suposición puede no ser factible en ciertos entornos, por ejemplo en el aprendizaje en línea, o cuando los reinicios son posibles únicamente desde un estado inicial fijo. En estos casos, algoritmos clásicos de gradiente de política como REINFORCE pueden presentar malas propiedades de convergencia y eficiencia en el uso de muestras. Explorador Curioso es una estrategia iterativa de exploración pura en el espacio de estados que mejora la cobertura de cualquier distribución de reinicio ρ. Usando ρ y recompensas intrínsecas, Explorador Curioso produce una secuencia de políticas, cada una más exploratoria que la anterior, y genera una distribución de reinicio con cobertura basada en la distribución de visitas a estados de las políticas exploratorias. Los principales resultados de este artículo son un límite teórico superior sobre la frecuencia con que una política óptima visita estados poco visitados, y un límite sobre el error del retorno obtenido por REINFORCE sin ninguna suposición de cobertura. Finalmente, realizamos estudios de ablación con REINFORCE y TRPO en dos tareas de exploración difíciles, para apoyar la afirmación de que Explorador Curioso puede mejorar el desempeño de algoritmos de gradiente de política muy diferentes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Marco Miani
Maurizio Parton
Marco Romito
IEEE Transactions on Pattern Analysis and Machine Intelligence
Technical University of Denmark
University of Pisa
University of Chieti-Pescara
Building similarity graph...
Analyzing shared references across papers
Loading...
Miani et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e58481b6db643587521aeb — DOI: https://doi.org/10.1109/tpami.2024.3460972