Key points are not available for this paper at this time.
Der Fokus der Bewertung von Sprachmodellen hat sich hin zu reasoning- und wissensintensiven Aufgaben verschoben, angetrieben durch Fortschritte im Pretraining großer Modelle. Während hochmoderne Modelle teilweise mit großen arabischen Texten trainiert wurden, bleibt die Bewertung ihrer Leistung im Arabischen aufgrund der begrenzten Verfügbarkeit relevanter Datensätze herausfordernd. Um diese Lücke zu schließen, präsentieren wir ArabicMMLU, den ersten Multi-Task-Sprachverständnis-Benchmark für die arabische Sprache, basierend auf Schulprüfungen verschiedener Bildungsstufen in unterschiedlichen Ländern Nordafrikas, des Levante und der Golfregion. Unsere Daten umfassen 40 Aufgaben und 14.575 Multiple-Choice-Fragen in Modernem Standardarabisch (MSA) und wurden sorgfältig in Zusammenarbeit mit Muttersprachlern aus der Region erstellt. Unsere umfassenden Bewertungen von 35 Modellen zeigen erheblichen Verbesserungsbedarf, insbesondere bei den besten Open-Source-Modellen. Bemerkenswert ist, dass BLOOMZ, mT0, LLama2 und Falcon Schwierigkeiten haben, eine Punktzahl von 50 % zu erreichen, während selbst das leistungsstärkste modellzentrierte arabische Modell nur eine Punktzahl von 62,3 % erzielt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fajri Koto
Haonan Li
Sara Shatnawi
Building similarity graph...
Analyzing shared references across papers
Loading...
Koto et al. (Tue,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e786ffb6db6435876f9c3e — DOI: https://doi.org/10.48550/arxiv.2402.12840
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: