تتقدم نماذج اللغة الكبيرة متعددة اللغات بسرعة، حيث تدعي النماذج الجديدة دعم عدد متزايد من اللغات. ومع ذلك، فإن مجموعات بيانات التقييم الحالية محدودة وتفتقر إلى المحاذاة عبر اللغات، مما يجعل تقييمات القدرات متعددة اللغات مجزأة من حيث التغطية اللغوية والمهارية. لمعالجة ذلك، نقدم MuBench، وهو معيار يغطي 61 لغة ويقيم مجموعة واسعة من القدرات. نقيّم عدة نماذج متعددة اللغات متقدمة ونجد فجوات ملحوظة بين التغطية اللغوية المزعومة والفعليّة، لا سيما فرق أداء مستمر بين الإنجليزية واللغات منخفضة الموارد. بالاستفادة من محاذاة MuBench، نقترح الاتساق متعدد اللغات (MLC) كمقياس تكميلي للدقة لتحليل عنق الزجاجة في الأداء وتوجيه تحسين النموذج. أخيراً، نقوم بتدريب مجموعة من النماذج التي تحتوي على 1.2 مليار معلمة على الإنجليزية والصينية مع 500 مليار رمز، مع تغيير نسب اللغات ونسب البيانات الموازية لدراسة ديناميكيات النقل عبر اللغات.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenhan Han
Yifan Zhang
Zhixun Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
درس هان وآخرون (الثلاثاء،) هذا السؤال.
www.synapsesocial.com/papers/68de84bf5b556a9128e1be87 — DOI: https://doi.org/10.48550/arxiv.2506.19468
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: