Key points are not available for this paper at this time.
مع التطور السريع لنماذج اللغة الكبيرة (LLMs)، من الضروري وجود معايير تقييم يمكنها قياس قدرة هذه النماذج في مجالات مختلفة. أحد الاستخدامات الشائعة لنماذج اللغة الكبيرة هو أداء مهام في مواضيع علمية، مثل كتابة الخوارزميات، الاستفسار من قواعد البيانات أو تقديم براهين رياضية. مستوحى من الطريقة التي يُقيّم بها طلاب الجامعات على مثل هذه المهام، نقترح في هذه الورقة SciEx - معيار تقييم يتكون من أسئلة امتحانات علوم الحاسوب الجامعية، لتقييم قدرة النماذج اللغوية الكبيرة على حل المهام العلمية. SciEx (1) متعدد اللغات، يحتوي على امتحانات بالإنجليزية والألمانية، و(2) متعدد الوسائط، يحتوى على أسئلة تتضمن صوراً، و(3) يحتوي على أنواع مختلفة من الأسئلة الحرة بمستويات صعوبة مختلفة، نظراً لطبيعة امتحانات الجامعة. قيّمنا أداء نماذج اللغة الكبيرة الحديثة المختلفة على معيارنا الجديد. وبما أن أسئلة SciEx هي حرة الصياغة، فليس من السهل تقييم أداء النماذج. لذلك، قدمنا تصحيح خبير بشري لنتائج النماذج على SciEx. نُظهر أن الامتحانات الحرة في SciEx ما تزال تمثل تحدياً للنماذج الحالية، حيث يحقق أفضل نموذج درجة 59.4\% فقط في الامتحان في المتوسط. كما نقدم مقارنات مفصلة بين أداء النماذج وأداء الطلاب على SciEx. لتمكين التقييم المستقبلي للنماذج الجديدة، نقترح استخدام نموذج اللغة الكبيرة كقاضٍ لتصحيح إجابات النماذج على SciEx. تُظهر تجاربنا أنه بالرغم من أن النماذج لا تؤدي بشكل مثالي في حل الامتحانات، إلا أنها جيدة كمصححين، حيث تحقق معامل ارتباط بيرسون 0.948 مع التصحيح الخبير.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tu Anh Dinh
Carlos Mullov
Leonard Bärmann
Building similarity graph...
Analyzing shared references across papers
Loading...
درس دينه وآخرون (الجمعة،) هذا السؤال.
www.synapsesocial.com/papers/68e64b41b6db6435875dc68c — DOI: https://doi.org/10.48550/arxiv.2406.10421
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: