Key points are not available for this paper at this time.
تقدم هذه الورقة إطار عمل معيار ذاتي التطور لتقييم النماذج اللغوية الكبيرة المتقدمة بسرعة بشكل ديناميكي، بهدف تحقيق تقييم أكثر دقة لقدراتها وحدودها. نستخدم نظامًا متعدد الوكلاء للتلاعب بسياق أو سؤال الحالات الأصلية، معاد صياغة حالات متطورة جديدة بثقة عالية توسع بطريقة ديناميكية المعايير الموجودة. من أجل تقييم أكثر قابلية للتوسع، متانة، وتفصيلًا دقيقًا، ننفذ ست عمليات إعادة صياغة لبناء حالات متطورة تختبر النماذج اللغوية الكبيرة ضد استفسارات متنوعة، وضجيج البيانات، واستقصاء القدرات الفرعية لحل المشكلات. باستخدام هذا الإطار، نوسع مجموعات بيانات المعايير لأربع مهام. توضح النتائج التجريبية انخفاضًا عامًا في أداء معظم النماذج اللغوية الكبيرة مقارنة بالنتائج الأصلية لها. يعكس هذا الانخفاض في تقييماتنا القابلة للتوسع والمتينة، إلى جانب تقييمنا المفصل، قدرات النماذج بشكل أدق. بالإضافة إلى ذلك، يوسع إطار عملنا الفوارق في الأداء بين النماذج المختلفة وداخل نفس النموذج عبر مهام مختلفة، مما يسهل اختيار النموذج الأنسب لمهام محددة (الكود والبيانات متاحة على https://github.com/NanshineLoong/Self-Evolving-Benchmark).
Building similarity graph...
Analyzing shared references across papers
Loading...
Siyuan Wang
Zhuohan Long
Zhihao Fan
Building similarity graph...
Analyzing shared references across papers
Loading...
درس وانغ وزملاؤه (Sat,) هذا السؤال.
www.synapsesocial.com/papers/68e78cdeb6db6435876fe6ef — DOI: https://doi.org/10.48550/arxiv.2402.11443
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: