Key points are not available for this paper at this time.
تواجه طرق التعلم التعزيزي متعددة الوكلاء (MARL) صعوبات بسبب عدم الاستقرار في أنظمة متعددة الوكلاء وتفشل في التعلم التكيفي عبر الإنترنت عند اختبارها مع وكلاء جدد. هنا، نستفيد من نماذج اللغة الكبيرة (LLMs) لإنشاء وكيل مستقل يمكنه التعامل مع هذه التحديات. يتكون وكيلنا، العقول الافتراضية، من بنية مستوحاة معرفيًا، تضم مكونات معيارية للإدراك والذاكرة والتخطيط الهرمي على مستويين من التجريد. نقدم وحدة نظرية العقل التي تدعم عملية التخطيط عالية المستوى عن طريق توليد فرضيات حول استراتيجيات الوكلاء الآخرين بلغة طبيعية. ثم تقوم بتقييم هذه الفرضيات وتنقيحها تدريجيًا من خلال تعزيز الفرضيات التي تتنبأ بشكل صحيح بسلوك الوكلاء الآخرين. تُحسن العقول الافتراضية الأداء بشكل كبير مقارنةً بأساسيات وكلاء LLM وRL السابقة في مجموعة من المجالات التنافسية، المختلطة الدوافع، والتعاونية في معيار Melting Pot، بما في ذلك البيئات الثنائية والسكانية. بالإضافة إلى ذلك، تكشف المقارنات مع أساسيات وكلاء LLM والتحليلات المُقصية أهمية تقييم الفرضيات وتنقيحها للنجاح في السيناريوهات المعقدة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Logan Cross
Violet Xiang
Agam Bhatia
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Cross وآخرون (الثلاثاء،) هذا السؤال.
www.synapsesocial.com/papers/68e60e4db6db6435875a1268 — DOI: https://doi.org/10.48550/arxiv.2407.07086
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: