What type of study is this?

This is a Literature Review study.

September 23, 2025Open Access

لا صالحة ولا موثوقة؟ التحقيق في استخدام نماذج اللغة الكبيرة كحكام

Key Points

يثير استخدام نماذج اللغة الكبيرة كحكام مخاوف بشأن موثوقيتها وصلاحيتها في التقييم.
قد لا تكون الافتراضات الحالية حول قدرة نماذج اللغة الكبيرة على العمل كبدائل للحكم البشري صحيحة.
تفحص الورقة الموقف نقديًا افتراضات قابلية التوسع وفعالية التكلفة لنماذج اللغة الكبيرة.
الممارسات المسؤولة في التقييم ضرورية لضمان دعم نماذج اللغة الكبيرة للتقدم في توليد اللغة الطبيعية.

Abstract

تقييم أنظمة توليد اللغة الطبيعية (NLG) يظل تحديًا أساسيًا في معالجة اللغة الطبيعية (NLP)، وقد تعقد أكثر مع ظهور نماذج اللغة الكبيرة (LLMs) التي تهدف لأن تكون عامة الغرض. مؤخرًا، ظهرت نماذج اللغة الكبيرة كحكام (LLJs) كبديل واعد للمعايير التقليدية، لكن صلاحيتها لا تزال غير مستكشفة بشكل كافٍ. تناقش هذه الورقة الموقف بأن الحماس الحالي تجاه LLJs قد يكون مبكرًا، حيث تفوق تبنيها الفحص الدقيق لموثوقيتها وصلاحيتها كمقَيّمين. بالاستناد إلى نظرية القياس من العلوم الاجتماعية، نحدد ونقيّم نقديًا أربعة افتراضات أساسية تقوم عليها استخدام LLJs: قدرتها على العمل كبدائل للحكم البشري، قدراتها كمقَيّمين، قابليتها للتوسع، وفعاليتها من حيث التكلفة. نفحص كيف يمكن أن تتعرض كل من هذه الافتراضات للتحدي بسبب القيود الكامنة في LLMs وLLJs أو الممارسات الحالية في تقييم NLG. لتأسيس تحليلنا، نستعرض ثلاث تطبيقات لـ LLJs: تلخيص النص، ترميز البيانات، ومحاذاة السلامة. وأخيرًا، نبرز الحاجة إلى ممارسات تقييم مسؤولة أكثر في تقييم LLJs، لضمان أن دورها المتنامي في المجال يدعم التقدم في NLG بدلاً من تقويضه.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Khaoula Chehbouni

Mohammed Haddou

Jackie Chi Kit Cheung

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

لا صالحة ولا موثوقة؟ التحقيق في استخدام نماذج اللغة الكبيرة كحكام

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider