Key points are not available for this paper at this time.
أصبح استخدام الأسئلة التوجيهية وأسئلة الاختيار من متعدد (MCQ) النهج المفضل لتقييم قدرات نماذج اللغة الكبيرة (LLMs)، بسبب سهولة تعديلها وتقييمها. أشارت هذه التقييمات التجريبية إلى القدرة الظاهرة لـ LLMs على إجراء الاستدلال السببي أو فهم عدم اليقين. في هذه الورقة، نحقق فيما إذا كانت هذه القدرات قابلة للقياس خارج نطاق الأسئلة التوجيهية المصممة وأسئلة الاختيار المتعدد من خلال إعادة صياغة هذه المسائل على شكل إكمال نص مباشر - وهو الأساس في نماذج اللغة الكبيرة. لتحقيق هذا الهدف، نحدد سيناريوهات لها نتائج متعددة ممكنة ونقارن التنبؤات التي تقوم بها LLM من خلال التوجيه (إجابتهم المعلنة) مع توزيعات الاحتمالات التي يحسبونها عبر هذه النتائج أثناء توقع الرمز التالي (معتقدهم المكشوف). تشير نتائجنا إلى أن المعتقد المكشوف لـ LLMs يختلف بشكل كبير عن إجابتهم المعلنة ويدل على وجود تحيزات وتمثيلات خاطئة متعددة قد تنتجها معتقداتهم في العديد من السيناريوهات والنتائج. وبما أن إكمال النص هو جوهر نماذج اللغة الكبيرة، فإن هذه النتائج تُوحي بأن طرق التقييم الشائعة قد تقدم صورة جزئية فقط وأن هناك حاجة لمزيد من البحث لتقييم مدى وطبيعة قدراتهم.
Building similarity graph...
Analyzing shared references across papers
Loading...
Manuel Mondal
Ljiljana Dolamic
Gérôme Bovet
Building similarity graph...
Analyzing shared references across papers
Loading...
درس موندال وزملاؤه (الجمعة) هذا السؤال.
www.synapsesocial.com/papers/68e63e20b6db6435875cfa06 — DOI: https://doi.org/10.48550/arxiv.2406.14986
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: