What type of study is this?

This is a Quantitative Study study.

October 2, 2025Open Access

MuBench: تقييم القدرات متعددة اللغات لنماذج اللغة الكبيرة عبر 61 لغة

Key Points

تم العثور على فجوات ملحوظة بين التغطية اللغوية المزعومة والفعلية في نماذج اللغة متعددة اللغات، خاصةً للغات منخفضة الموارد.
تقديم MuBench يوفر تقييمًا أكثر شمولاً عبر 61 لغة، معالجًا قيود مجموعات البيانات السابقة.
تشير التقييمات إلى وجود تفاوت مستمر في الأداء بين الإنجليزية واللغات منخفضة الموارد، مما يؤكد الحاجة إلى تحسينات مركزة.
اقتراح الاتساق متعدد اللغات يقدم مقياسًا جديدًا لتحديد عنق الزجاجة في أداء نماذج اللغة متعددة اللغات.

Abstract

تتقدم نماذج اللغة الكبيرة متعددة اللغات بسرعة، حيث تدعي النماذج الجديدة دعم عدد متزايد من اللغات. ومع ذلك، فإن مجموعات بيانات التقييم الحالية محدودة وتفتقر إلى المحاذاة عبر اللغات، مما يجعل تقييمات القدرات متعددة اللغات مجزأة من حيث التغطية اللغوية والمهارية. لمعالجة ذلك، نقدم MuBench، وهو معيار يغطي 61 لغة ويقيم مجموعة واسعة من القدرات. نقيّم عدة نماذج متعددة اللغات متقدمة ونجد فجوات ملحوظة بين التغطية اللغوية المزعومة والفعليّة، لا سيما فرق أداء مستمر بين الإنجليزية واللغات منخفضة الموارد. بالاستفادة من محاذاة MuBench، نقترح الاتساق متعدد اللغات (MLC) كمقياس تكميلي للدقة لتحليل عنق الزجاجة في الأداء وتوجيه تحسين النموذج. أخيراً، نقوم بتدريب مجموعة من النماذج التي تحتوي على 1.2 مليار معلمة على الإنجليزية والصينية مع 500 مليار رمز، مع تغيير نسب اللغات ونسب البيانات الموازية لدراسة ديناميكيات النقل عبر اللغات.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenhan Han

Yifan Zhang

Zhixun Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MuBench: تقييم القدرات متعددة اللغات لنماذج اللغة الكبيرة عبر 61 لغة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider