March 24, 2024Open Access

تحليل شامل لفعالية النماذج اللغوية الكبيرة كمقيمي حوار آليين

Key Points

Key points are not available for this paper at this time.

Abstract

يُعد التقييم الآلي جانبًا أساسيًا في أبحاث أنظمة الحوار. عمومًا، تُعتبر مقاييس توليد اللغة الطبيعية المستندة إلى المراجع التقليدية غير مناسبة لتقييم الحوارات. وبناءً عليه، اقترحت دراسات حديثة عدة مقاييس عصبية فريدة وخالية من المرجع تتماشى بشكل أفضل مع التقييمات البشرية. ومن بين هذه المقاييس، تُظهر النماذج اللغوية الكبيرة (LLMs)، خاصة النسخ المعدلة بالتعليمات مثل ChatGPT، إمكانيات واعدة كبدائل للحكام البشريين. ومع ذلك، فإن الأعمال الحالية التي تستفيد من LLMs لتقييم الحوارات تلقائيًا محدودة من حيث عدد مجموعات بيانات التقييم الفوقي، ونمط التقييم، وتغطية النماذج، وغيرها. لذلك، لا تزال فعالية هذه النماذج اللغوية الكبيرة غير حاسمة. لتحقيق ذلك، قمنا بدراسة شاملة لتطبيق LLMs في تقييم الحوارات تلقائيًا. بالتحديد، نحلل قدرة التقييم المتعددة الأبعاد لـ 30 نموذجًا لغويًا كبيرًا ظهرت مؤخرًا على مستويي الدور والحوار، باستخدام مجموعة شاملة مكونة من 12 مجموعة بيانات تقييم فوقية. علاوة على ذلك، نختبر متانة هذه النماذج في التعامل مع اضطرابات عدائية مختلفة على مستويي الدور والحوار. وأخيرًا، نستكشف تأثير التجميع على مستوى النموذج والمستوى البُعدي على أداء التقييم. جميع الموارد متاحة على https://github.com/e0397123/comp-analysis.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chen Zhang

Luis Fernando D’Haro

Yiming Chen

Actions

Institutions

National University of Singapore

University of Electronic Science and Technology of China

Universidad Politécnica de Madrid

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

تحليل شامل لفعالية النماذج اللغوية الكبيرة كمقيمي حوار آليين

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study