June 14, 2024Open Access

SciEx: تقييم نماذج اللغة الكبيرة على الامتحانات العلمية مع تصحيح الخبراء البشر والتصحيح الآلي

Key Points

Key points are not available for this paper at this time.

Abstract

مع التطور السريع لنماذج اللغة الكبيرة (LLMs)، من الضروري وجود معايير تقييم يمكنها قياس قدرة هذه النماذج في مجالات مختلفة. أحد الاستخدامات الشائعة لنماذج اللغة الكبيرة هو أداء مهام في مواضيع علمية، مثل كتابة الخوارزميات، الاستفسار من قواعد البيانات أو تقديم براهين رياضية. مستوحى من الطريقة التي يُقيّم بها طلاب الجامعات على مثل هذه المهام، نقترح في هذه الورقة SciEx - معيار تقييم يتكون من أسئلة امتحانات علوم الحاسوب الجامعية، لتقييم قدرة النماذج اللغوية الكبيرة على حل المهام العلمية. SciEx (1) متعدد اللغات، يحتوي على امتحانات بالإنجليزية والألمانية، و(2) متعدد الوسائط، يحتوى على أسئلة تتضمن صوراً، و(3) يحتوي على أنواع مختلفة من الأسئلة الحرة بمستويات صعوبة مختلفة، نظراً لطبيعة امتحانات الجامعة. قيّمنا أداء نماذج اللغة الكبيرة الحديثة المختلفة على معيارنا الجديد. وبما أن أسئلة SciEx هي حرة الصياغة، فليس من السهل تقييم أداء النماذج. لذلك، قدمنا تصحيح خبير بشري لنتائج النماذج على SciEx. نُظهر أن الامتحانات الحرة في SciEx ما تزال تمثل تحدياً للنماذج الحالية، حيث يحقق أفضل نموذج درجة 59.4\% فقط في الامتحان في المتوسط. كما نقدم مقارنات مفصلة بين أداء النماذج وأداء الطلاب على SciEx. لتمكين التقييم المستقبلي للنماذج الجديدة، نقترح استخدام نموذج اللغة الكبيرة كقاضٍ لتصحيح إجابات النماذج على SciEx. تُظهر تجاربنا أنه بالرغم من أن النماذج لا تؤدي بشكل مثالي في حل الامتحانات، إلا أنها جيدة كمصححين، حيث تحقق معامل ارتباط بيرسون 0.948 مع التصحيح الخبير.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tu Anh Dinh

Carlos Mullov

Leonard Bärmann

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

SciEx: تقييم نماذج اللغة الكبيرة على الامتحانات العلمية مع تصحيح الخبراء البشر والتصحيح الآلي

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider