June 21, 2024Open Access

هل تُظهر نماذج اللغة الكبيرة تنافرًا معرفيًا؟ دراسة الفرق بين المعتقدات المكشوفة والإجابات المعلنة

Key Points

Key points are not available for this paper at this time.

Abstract

أصبح استخدام الأسئلة التوجيهية وأسئلة الاختيار من متعدد (MCQ) النهج المفضل لتقييم قدرات نماذج اللغة الكبيرة (LLMs)، بسبب سهولة تعديلها وتقييمها. أشارت هذه التقييمات التجريبية إلى القدرة الظاهرة لـ LLMs على إجراء الاستدلال السببي أو فهم عدم اليقين. في هذه الورقة، نحقق فيما إذا كانت هذه القدرات قابلة للقياس خارج نطاق الأسئلة التوجيهية المصممة وأسئلة الاختيار المتعدد من خلال إعادة صياغة هذه المسائل على شكل إكمال نص مباشر - وهو الأساس في نماذج اللغة الكبيرة. لتحقيق هذا الهدف، نحدد سيناريوهات لها نتائج متعددة ممكنة ونقارن التنبؤات التي تقوم بها LLM من خلال التوجيه (إجابتهم المعلنة) مع توزيعات الاحتمالات التي يحسبونها عبر هذه النتائج أثناء توقع الرمز التالي (معتقدهم المكشوف). تشير نتائجنا إلى أن المعتقد المكشوف لـ LLMs يختلف بشكل كبير عن إجابتهم المعلنة ويدل على وجود تحيزات وتمثيلات خاطئة متعددة قد تنتجها معتقداتهم في العديد من السيناريوهات والنتائج. وبما أن إكمال النص هو جوهر نماذج اللغة الكبيرة، فإن هذه النتائج تُوحي بأن طرق التقييم الشائعة قد تقدم صورة جزئية فقط وأن هناك حاجة لمزيد من البحث لتقييم مدى وطبيعة قدراتهم.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Manuel Mondal

Ljiljana Dolamic

Gérôme Bovet

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

هل تُظهر نماذج اللغة الكبيرة تنافرًا معرفيًا؟ دراسة الفرق بين المعتقدات المكشوفة والإجابات المعلنة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider