January 9, 2025Open Access

تحسين السياسة الفوري باستخدام بحث مونت كارلو

Key Points

Key points are not available for this paper at this time.

Abstract

نقدم خوارزمية محاكاة مونت كارلو لتحسين السياسات في الوقت الحقيقي لمتحكم تكيفي. في محاكاة مونت كارلو، يتم قياس العائد المتوقع طويل الأمد لكل إجراء ممكن إحصائياً، مع استخدام السياسة الأولية لاتخاذ القرارات في كل خطوة من المحاكاة. ثم يتم اتخاذ الإجراء الذي يُعظم العائد المتوقع المقاس، مما يؤدي إلى تحسين السياسة. خوارزميتنا سهلة التوزيع وقد تم تنفيذها على الحواسيب الفائقة المتوازية من نوع IBM SP1 و SP2 ذات معالجات RISC الموازية. لقد حصلنا على نتائج أولية واعدة عند تطبيق هذه الخوارزمية على مجال لعبة الطاولة. تم الإبلاغ عن النتائج لتنوع واسع من السياسات الأولية، تتراوح بين سياسة عشوائية إلى TD-Gammon، شبكة عصبية متعددة الطبقات قوية للغاية. في كل حالة، توفر خوارزمية مونت كارلو تقليصاً كبيراً في معدل الخطأ للاعبين الأساسيين، يصل إلى عامل 5 أو أكثر. الخوارزمية مفيدة أيضاً محتمل في العديد من تطبيقات التحكم التكيفي الأخرى التي يمكن فيها محاكاة البيئة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Gerald Tesauro

Gregory R. Galperin

Journals

neural information processing systems

Actions

Institutions

Massachusetts Institute of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

تحسين السياسة الفوري باستخدام بحث مونت كارلو

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider