What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

Entrar en el Vacío - Planificando Buscar Entropía Cuando la Recompensa es Escasa

Puntos clave

El método acelera la finalización de laberintos en un 50 % comparado con Dreamer base, mejorando la eficiencia y el aprendizaje.
La planificación jerárquica ajusta dinámicamente la estrategia para recompensa y entropía, ofreciendo una nueva visión sobre los métodos impulsados por la curiosidad.
El aprendizaje por refuerzo basado en modelos se mejora mediante el uso de modelos del mundo para predecir eventos futuros y guiar la acción.
Este enfoque significa un posible cambio en las estrategias de aprendizaje por refuerzo al priorizar la fidelidad del modelo y la eficiencia en la planificación.

Resumen

El aprendizaje por refuerzo basado en modelos (MBRL) ofrece una forma intuitiva de aumentar la eficiencia muestral de los métodos de RL sin modelo mediante el entrenamiento simultáneo de un modelo del mundo que aprende a predecir el futuro. Los métodos MBRL han progresado priorizando en gran medida al actor; mientras tanto, la optimización del aprendizaje del modelo del mundo ha sido descuidada. Mejorar la fidelidad del modelo del mundo y reducir su tiempo de convergencia puede generar beneficios significativos posteriores, uno de los cuales es mejorar el rendimiento subsiguiente de cualquier actor que pueda entrenar. Proponemos un enfoque novedoso que anticipa y busca activamente estados de alta entropía mediante predicciones latentes a corto plazo generadas por el modelo del mundo, ofreciendo una alternativa fundamentada a los métodos tradicionales impulsados por la curiosidad que persiguen estados antes novedosos mucho después de haberlos encontrado accidentalmente. Mientras que muchos métodos basados en control predictivo de modelos (MPC) ofrecen alternativas similares, típicamente carecen de compromiso, sintetizando planes multietapa después de cada paso. Para mitigar esto, presentamos un planificador jerárquico que decide dinámicamente cuándo replanificar, la longitud del horizonte de planificación y la ponderación entre recompensa y entropía. Aunque nuestro método teóricamente puede aplicarse a cualquier modelo que entrene sus propios actores con datos generados únicamente por el modelo, lo hemos aplicado solo a Dreamer como prueba de concepto. Nuestro método completa los laberintos generados proceduralmente en Miniworld un 50 % más rápido que Dreamer base al converger, y la política entrenada en la imaginación converge en solo el 60 % de los pasos del entorno que Dreamer base necesita.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ashish Sundar

Changtong Luo

Xiaoyang Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Entrar en el Vacío - Planificando Buscar Entropía Cuando la Recompensa es Escasa

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider