Key points are not available for this paper at this time.
يُعد التقييم الآلي جانبًا أساسيًا في أبحاث أنظمة الحوار. عمومًا، تُعتبر مقاييس توليد اللغة الطبيعية المستندة إلى المراجع التقليدية غير مناسبة لتقييم الحوارات. وبناءً عليه، اقترحت دراسات حديثة عدة مقاييس عصبية فريدة وخالية من المرجع تتماشى بشكل أفضل مع التقييمات البشرية. ومن بين هذه المقاييس، تُظهر النماذج اللغوية الكبيرة (LLMs)، خاصة النسخ المعدلة بالتعليمات مثل ChatGPT، إمكانيات واعدة كبدائل للحكام البشريين. ومع ذلك، فإن الأعمال الحالية التي تستفيد من LLMs لتقييم الحوارات تلقائيًا محدودة من حيث عدد مجموعات بيانات التقييم الفوقي، ونمط التقييم، وتغطية النماذج، وغيرها. لذلك، لا تزال فعالية هذه النماذج اللغوية الكبيرة غير حاسمة. لتحقيق ذلك، قمنا بدراسة شاملة لتطبيق LLMs في تقييم الحوارات تلقائيًا. بالتحديد، نحلل قدرة التقييم المتعددة الأبعاد لـ 30 نموذجًا لغويًا كبيرًا ظهرت مؤخرًا على مستويي الدور والحوار، باستخدام مجموعة شاملة مكونة من 12 مجموعة بيانات تقييم فوقية. علاوة على ذلك، نختبر متانة هذه النماذج في التعامل مع اضطرابات عدائية مختلفة على مستويي الدور والحوار. وأخيرًا، نستكشف تأثير التجميع على مستوى النموذج والمستوى البُعدي على أداء التقييم. جميع الموارد متاحة على https://github.com/e0397123/comp-analysis.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen Zhang
Luis Fernando D’Haro
Yiming Chen
National University of Singapore
University of Electronic Science and Technology of China
Universidad Politécnica de Madrid
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Zhang وآخرون (Sun،) هذا السؤال.
www.synapsesocial.com/papers/68e72954b6db6435876a2f72 — DOI: https://doi.org/10.1609/aaai.v38i17.29923