February 17, 2024Open Access

التقييم الذاتي المتطور: إطار متعدد الوكلاء لتقييم النماذج اللغوية الكبيرة الديناميكية

Key Points

Key points are not available for this paper at this time.

Abstract

تقدم هذه الورقة إطار عمل معيار ذاتي التطور لتقييم النماذج اللغوية الكبيرة المتقدمة بسرعة بشكل ديناميكي، بهدف تحقيق تقييم أكثر دقة لقدراتها وحدودها. نستخدم نظامًا متعدد الوكلاء للتلاعب بسياق أو سؤال الحالات الأصلية، معاد صياغة حالات متطورة جديدة بثقة عالية توسع بطريقة ديناميكية المعايير الموجودة. من أجل تقييم أكثر قابلية للتوسع، متانة، وتفصيلًا دقيقًا، ننفذ ست عمليات إعادة صياغة لبناء حالات متطورة تختبر النماذج اللغوية الكبيرة ضد استفسارات متنوعة، وضجيج البيانات، واستقصاء القدرات الفرعية لحل المشكلات. باستخدام هذا الإطار، نوسع مجموعات بيانات المعايير لأربع مهام. توضح النتائج التجريبية انخفاضًا عامًا في أداء معظم النماذج اللغوية الكبيرة مقارنة بالنتائج الأصلية لها. يعكس هذا الانخفاض في تقييماتنا القابلة للتوسع والمتينة، إلى جانب تقييمنا المفصل، قدرات النماذج بشكل أدق. بالإضافة إلى ذلك، يوسع إطار عملنا الفوارق في الأداء بين النماذج المختلفة وداخل نفس النموذج عبر مهام مختلفة، مما يسهل اختيار النموذج الأنسب لمهام محددة (الكود والبيانات متاحة على https://github.com/NanshineLoong/Self-Evolving-Benchmark).

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Siyuan Wang

Zhuohan Long

Zhihao Fan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

التقييم الذاتي المتطور: إطار متعدد الوكلاء لتقييم النماذج اللغوية الكبيرة الديناميكية

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider