Los puntos clave no están disponibles para este artículo en este momento.
Presentamos un algoritmo de simulación Monte-Carlo para la mejora en tiempo real de la política de un controlador adaptativo. En la simulación Monte-Carlo, la recompensa esperada a largo plazo de cada posible acción se mide estadísticamente, utilizando la política inicial para tomar decisiones en cada paso de la simulación. Luego se toma la acción que maximiza la recompensa esperada medida, resultando en una política mejorada. Nuestro algoritmo es fácilmente paralelizable y ha sido implementado en los superordenadores paralelos-RISC IBM SP1 y SP2. Hemos obtenido resultados iniciales prometedores al aplicar este algoritmo al dominio del backgammon. Se reportan resultados para una amplia variedad de políticas iniciales, que van desde una política aleatoria hasta TD-Gammon, una red neuronal multicapa extremadamente fuerte. En cada caso, el algoritmo Monte-Carlo proporciona una reducción sustancial, hasta un factor de 5 o más, en la tasa de error de los jugadores base. El algoritmo también es potencialmente útil en muchas otras aplicaciones de control adaptativo en las que es posible simular el entorno.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gerald Tesauro
Gregory R. Galperin
neural information processing systems
Massachusetts Institute of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Tesauro et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a0a541e5b6facdebcb4e780 — DOI: https://doi.org/10.48550/arxiv.2501.05407
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: