تقدم هذه الدراسة إطارًا مبتكرًا لتقييم التحيز متعدد اللغات لتقييم التحيز في نماذج اللغة الكبيرة، يجمع بين تقييم التحيز الصريح عبر معيار BBQ وقياس التحيز الضمني باستخدام اختبار الارتباط الضمني القائم على الإرشادات. من خلال ترجمة الإرشادات وقائمة الكلمات إلى خمس لغات مستهدفة هي الإنجليزية، الصينية، العربية، الفرنسية والإسبانية، نقوم بالمقارنة المباشرة لأنواع التحيز المختلفة عبر اللغات. تكشف النتائج عن فجوات كبيرة في التحيز عبر اللغات المستخدمة في نماذج اللغة الكبيرة. على سبيل المثال، تظهر العربية والإسبانية مستويات أعلى باستمرار من تحيز الصور النمطية، بينما تظهر الصينية والإنجليزية مستويات تحيز أقل. كما نحدد أنماط متباينة عبر أنواع التحيز. العمر يظهر أقل تحيز صريح ولكنه أعلى تحيز ضمني، مما يؤكد أهمية الكشف عن التحيزات الضمنية التي لا يمكن اكتشافها باستخدام المعايير القياسية. تشير هذه النتائج إلى أن نماذج اللغة الكبيرة تختلف بشكل كبير عبر اللغات وأبعاد التحيز. تملأ هذه الدراسة فجوة بحثية رئيسية بتوفير منهجية شاملة لتحليل التحيز عبر اللغات. في النهاية، يؤسس عملنا لأساس تطوير نماذج لغة كبيرة متعددة اللغات عادلة، تضمن الإنصاف والفعالية عبر لغات وثقافات متنوعة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuxuan Liang
Marwa Mahmoud
Building similarity graph...
Analyzing shared references across papers
Loading...
دراسة ليانغ وآخرون (الأربعاء) لهذا السؤال.
www.synapsesocial.com/papers/69488bc877063b71e748cf44 — DOI: https://doi.org/10.48550/arxiv.2512.16029
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: