El aprendizaje por refuerzo basado en modelos (MBRL) ofrece una forma intuitiva de aumentar la eficiencia muestral de los métodos de RL sin modelo mediante el entrenamiento simultáneo de un modelo del mundo que aprende a predecir el futuro. Los métodos MBRL han progresado priorizando en gran medida al actor; mientras tanto, la optimización del aprendizaje del modelo del mundo ha sido descuidada. Mejorar la fidelidad del modelo del mundo y reducir su tiempo de convergencia puede generar beneficios significativos posteriores, uno de los cuales es mejorar el rendimiento subsiguiente de cualquier actor que pueda entrenar. Proponemos un enfoque novedoso que anticipa y busca activamente estados de alta entropía mediante predicciones latentes a corto plazo generadas por el modelo del mundo, ofreciendo una alternativa fundamentada a los métodos tradicionales impulsados por la curiosidad que persiguen estados antes novedosos mucho después de haberlos encontrado accidentalmente. Mientras que muchos métodos basados en control predictivo de modelos (MPC) ofrecen alternativas similares, típicamente carecen de compromiso, sintetizando planes multietapa después de cada paso. Para mitigar esto, presentamos un planificador jerárquico que decide dinámicamente cuándo replanificar, la longitud del horizonte de planificación y la ponderación entre recompensa y entropía. Aunque nuestro método teóricamente puede aplicarse a cualquier modelo que entrene sus propios actores con datos generados únicamente por el modelo, lo hemos aplicado solo a Dreamer como prueba de concepto. Nuestro método completa los laberintos generados proceduralmente en Miniworld un 50 % más rápido que Dreamer base al converger, y la política entrenada en la imaginación converge en solo el 60 % de los pasos del entorno que Dreamer base necesita.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ashish Sundar
Changtong Luo
Xiaoyang Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Sundar et al. estudiaron esta cuestión.
www.synapsesocial.com/papers/68da58d8c1728099cfd10f52 — DOI: https://doi.org/10.48550/arxiv.2505.16787
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: