Key points are not available for this paper at this time.
نقدم خوارزمية محاكاة مونت كارلو لتحسين السياسات في الوقت الحقيقي لمتحكم تكيفي. في محاكاة مونت كارلو، يتم قياس العائد المتوقع طويل الأمد لكل إجراء ممكن إحصائياً، مع استخدام السياسة الأولية لاتخاذ القرارات في كل خطوة من المحاكاة. ثم يتم اتخاذ الإجراء الذي يُعظم العائد المتوقع المقاس، مما يؤدي إلى تحسين السياسة. خوارزميتنا سهلة التوزيع وقد تم تنفيذها على الحواسيب الفائقة المتوازية من نوع IBM SP1 و SP2 ذات معالجات RISC الموازية. لقد حصلنا على نتائج أولية واعدة عند تطبيق هذه الخوارزمية على مجال لعبة الطاولة. تم الإبلاغ عن النتائج لتنوع واسع من السياسات الأولية، تتراوح بين سياسة عشوائية إلى TD-Gammon، شبكة عصبية متعددة الطبقات قوية للغاية. في كل حالة، توفر خوارزمية مونت كارلو تقليصاً كبيراً في معدل الخطأ للاعبين الأساسيين، يصل إلى عامل 5 أو أكثر. الخوارزمية مفيدة أيضاً محتمل في العديد من تطبيقات التحكم التكيفي الأخرى التي يمكن فيها محاكاة البيئة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gerald Tesauro
Gregory R. Galperin
neural information processing systems
Massachusetts Institute of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
درس تسارو وآخرون (الخميس،) هذا السؤال.
www.synapsesocial.com/papers/6a0a541e5b6facdebcb4e780 — DOI: https://doi.org/10.48550/arxiv.2501.05407
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: