January 9, 2025Open Access

Mejora de Políticas en Línea usando Búsqueda Monte-Carlo

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Presentamos un algoritmo de simulación Monte-Carlo para la mejora en tiempo real de la política de un controlador adaptativo. En la simulación Monte-Carlo, la recompensa esperada a largo plazo de cada posible acción se mide estadísticamente, utilizando la política inicial para tomar decisiones en cada paso de la simulación. Luego se toma la acción que maximiza la recompensa esperada medida, resultando en una política mejorada. Nuestro algoritmo es fácilmente paralelizable y ha sido implementado en los superordenadores paralelos-RISC IBM SP1 y SP2. Hemos obtenido resultados iniciales prometedores al aplicar este algoritmo al dominio del backgammon. Se reportan resultados para una amplia variedad de políticas iniciales, que van desde una política aleatoria hasta TD-Gammon, una red neuronal multicapa extremadamente fuerte. En cada caso, el algoritmo Monte-Carlo proporciona una reducción sustancial, hasta un factor de 5 o más, en la tasa de error de los jugadores base. El algoritmo también es potencialmente útil en muchas otras aplicaciones de control adaptativo en las que es posible simular el entorno.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Gerald Tesauro

Gregory R. Galperin

Journals

neural information processing systems

Actions

Institutions

Massachusetts Institute of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mejora de Políticas en Línea usando Búsqueda Monte-Carlo

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider