Key points are not available for this paper at this time.
طورت نماذج اللغة الكبيرة (LLMs) وكالات حوارية ذكائية اصطناعية متنوعة، بما في ذلك وكلاء تمثيليين يحاكون شخصيات وسلوكيات بشرية متنوعة. على الرغم من أن الأبحاث السابقة ركزت بشكل أساسي على تحسين القدرات الحوارية والمعرفة الخاصة بالأدوار والسمات الأسلوبية لهذه الوكلاء، إلا أنه يوجد فجوة ملحوظة في تقييم ذكائهم الاجتماعي. في هذه الورقة، نقدم RoleInteract، وهو أول معيار مصمم لتقييم الاجتماعية للوكلاء الحواريين التمثيليين بشكل منهجي على المستويين الفردي والجماعي من التفاعلات الاجتماعية. تم بناء المعيار من مصادر متنوعة ويغطي مجموعة واسعة من 500 شخصية وأكثر من 6000 سؤال تحفيزي و30,800 تعبير تمثيلي متعدد الأدوار. قمنا بإجراء تقييمات شاملة على هذا المعيار باستخدام نماذج اللغة الكبيرة مفتوحة المصدر ومغلقة المصدر السائدة. وجدنا أن تفوق الوكلاء على المستوى الفردي لا يعني بالضرورة كفاءتهم على المستوى الجماعي. علاوة على ذلك، قد يتغير سلوك الأفراد نتيجةً لتأثير العوامل الأخرى داخل المجموعة. تؤكد النتائج التجريبية على RoleInteract أهميته كمنصة اختبار لتقييم التفاعل الاجتماعي للوكلاء التمثيليين. المعيار متاح للعامة على https://github.com/X-PLUG/RoleInteract.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongzhan Chen
Hehong Chen
Ming Yan
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Chen وآخرون (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68e732d3b6db6435876ac4e0 — DOI: https://doi.org/10.48550/arxiv.2403.13679
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: