Key points are not available for this paper at this time.
نظرًا للتأثير الحديث للتعلم التعزيزي العميق في تدريب الوكلاء للفوز في ألعاب معقدة مثل StarCraft وDoTA (Defense Of The Ancients) - شهد البحث إقبالًا متزايدًا في استغلال التقنيات المعتمدة على التعلم للألعاب الحربية الاحترافية، ومحاكاة ساحة المعركة، والنمذجة. أصبحت ألعاب إستراتيجية الوقت الحقيقي والمحاكيات مصدرًا قيمًا للتخطيط العملياتي والبحث العسكري. مع ذلك، أظهرت الأبحاث الحديثة أن هذه النهج المعتمدة على التعلم معرضة جدًا للاضطرابات العدائية. في هذه الورقة، نبحث في متانة وكيل تم تدريبه لمهمة قيادة وسيطرة في بيئة تتحكم بها جهة عدائية نشطة. تم تدريب الوكيل على خرائط مخصصة لـ StarCraft II باستخدام أحدث خوارزميات التعلم التعزيزي - A3C وPPO. نُظهر تجريبيًا أن الوكيل المدرب باستخدام هذه الخوارزميات معرض جدًا للضوضاء التي يحقنها الخصم، ونحقق في تأثيرات هذه الاضطرابات على أداء الوكيل المدرب. يسلط عملنا الضوء على الحاجة العاجلة لتطوير خوارزميات تدريب أكثر متانة، خصوصًا للمجالات الحرجة مثل ساحة المعركة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ahaan Dabholkar
James Z. Hare
Mark Mittrick
Building similarity graph...
Analyzing shared references across papers
Loading...
درس دابهولكار وآخرون (الخميس) هذا السؤال.
www.synapsesocial.com/papers/68e6beabb6db64358763efb5 — DOI: https://doi.org/10.48550/arxiv.2405.01693
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: