تقييم أنظمة توليد اللغة الطبيعية (NLG) يظل تحديًا أساسيًا في معالجة اللغة الطبيعية (NLP)، وقد تعقد أكثر مع ظهور نماذج اللغة الكبيرة (LLMs) التي تهدف لأن تكون عامة الغرض. مؤخرًا، ظهرت نماذج اللغة الكبيرة كحكام (LLJs) كبديل واعد للمعايير التقليدية، لكن صلاحيتها لا تزال غير مستكشفة بشكل كافٍ. تناقش هذه الورقة الموقف بأن الحماس الحالي تجاه LLJs قد يكون مبكرًا، حيث تفوق تبنيها الفحص الدقيق لموثوقيتها وصلاحيتها كمقَيّمين. بالاستناد إلى نظرية القياس من العلوم الاجتماعية، نحدد ونقيّم نقديًا أربعة افتراضات أساسية تقوم عليها استخدام LLJs: قدرتها على العمل كبدائل للحكم البشري، قدراتها كمقَيّمين، قابليتها للتوسع، وفعاليتها من حيث التكلفة. نفحص كيف يمكن أن تتعرض كل من هذه الافتراضات للتحدي بسبب القيود الكامنة في LLMs وLLJs أو الممارسات الحالية في تقييم NLG. لتأسيس تحليلنا، نستعرض ثلاث تطبيقات لـ LLJs: تلخيص النص، ترميز البيانات، ومحاذاة السلامة. وأخيرًا، نبرز الحاجة إلى ممارسات تقييم مسؤولة أكثر في تقييم LLJs، لضمان أن دورها المتنامي في المجال يدعم التقدم في NLG بدلاً من تقويضه.
Building similarity graph...
Analyzing shared references across papers
Loading...
Khaoula Chehbouni
Mohammed Haddou
Jackie Chi Kit Cheung
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Chehbouni et al. (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68d4764731b076d99fa6e00b — DOI: https://doi.org/10.48550/arxiv.2508.18076
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: