May 2, 2024Open Access

الهجمات العدائية على وكلاء التعلم التعزيزي لأغراض القيادة والسيطرة

Key Points

Key points are not available for this paper at this time.

Abstract

نظرًا للتأثير الحديث للتعلم التعزيزي العميق في تدريب الوكلاء للفوز في ألعاب معقدة مثل StarCraft وDoTA (Defense Of The Ancients) - شهد البحث إقبالًا متزايدًا في استغلال التقنيات المعتمدة على التعلم للألعاب الحربية الاحترافية، ومحاكاة ساحة المعركة، والنمذجة. أصبحت ألعاب إستراتيجية الوقت الحقيقي والمحاكيات مصدرًا قيمًا للتخطيط العملياتي والبحث العسكري. مع ذلك، أظهرت الأبحاث الحديثة أن هذه النهج المعتمدة على التعلم معرضة جدًا للاضطرابات العدائية. في هذه الورقة، نبحث في متانة وكيل تم تدريبه لمهمة قيادة وسيطرة في بيئة تتحكم بها جهة عدائية نشطة. تم تدريب الوكيل على خرائط مخصصة لـ StarCraft II باستخدام أحدث خوارزميات التعلم التعزيزي - A3C وPPO. نُظهر تجريبيًا أن الوكيل المدرب باستخدام هذه الخوارزميات معرض جدًا للضوضاء التي يحقنها الخصم، ونحقق في تأثيرات هذه الاضطرابات على أداء الوكيل المدرب. يسلط عملنا الضوء على الحاجة العاجلة لتطوير خوارزميات تدريب أكثر متانة، خصوصًا للمجالات الحرجة مثل ساحة المعركة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ahaan Dabholkar

James Z. Hare

Mark Mittrick

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

الهجمات العدائية على وكلاء التعلم التعزيزي لأغراض القيادة والسيطرة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider