CMA-MAPPO: دمج استراتيجية التكيف مع مصفوفة التغاير في التطور مع تحسين السياسة القريب متعدد الوكلاء لتعزيز الاستكشاف في بيئات المكافآت النادرة | Synapse