February 20, 2024Open Access

ArabicMMLU: Bewertung des umfassenden Multitasking-Sprachverständnisses im Arabischen

Key Points

Key points are not available for this paper at this time.

Abstract

Der Fokus der Bewertung von Sprachmodellen hat sich hin zu reasoning- und wissensintensiven Aufgaben verschoben, angetrieben durch Fortschritte im Pretraining großer Modelle. Während hochmoderne Modelle teilweise mit großen arabischen Texten trainiert wurden, bleibt die Bewertung ihrer Leistung im Arabischen aufgrund der begrenzten Verfügbarkeit relevanter Datensätze herausfordernd. Um diese Lücke zu schließen, präsentieren wir ArabicMMLU, den ersten Multi-Task-Sprachverständnis-Benchmark für die arabische Sprache, basierend auf Schulprüfungen verschiedener Bildungsstufen in unterschiedlichen Ländern Nordafrikas, des Levante und der Golfregion. Unsere Daten umfassen 40 Aufgaben und 14.575 Multiple-Choice-Fragen in Modernem Standardarabisch (MSA) und wurden sorgfältig in Zusammenarbeit mit Muttersprachlern aus der Region erstellt. Unsere umfassenden Bewertungen von 35 Modellen zeigen erheblichen Verbesserungsbedarf, insbesondere bei den besten Open-Source-Modellen. Bemerkenswert ist, dass BLOOMZ, mT0, LLama2 und Falcon Schwierigkeiten haben, eine Punktzahl von 50 % zu erreichen, während selbst das leistungsstärkste modellzentrierte arabische Modell nur eine Punktzahl von 62,3 % erzielt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fajri Koto

Haonan Li

Sara Shatnawi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ArabicMMLU: Bewertung des umfassenden Multitasking-Sprachverständnisses im Arabischen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider