What type of study is this?

September 5, 2025Open Access

GATmath y GATLc: Referencias completas para evaluar modelos de lenguaje grande en árabe

Puntos clave

La precisión en la evaluación de modelos de lenguaje grande en árabe sigue siendo baja, con el modelo de mejor desempeño alcanzando solo 66.9%.
La introducción de GATmath y GATLc representa un avance significativo en el desarrollo de conjuntos de datos completos para la evaluación del idioma árabe.
Estas referencias cubren una variedad de habilidades incluyendo razonamiento, análisis semántico y comprensión del lenguaje, destacando su importancia.
Los LLMs árabes actuales enfrentan desafíos considerables, lo que indica la necesidad de mejoras continuas en el desarrollo de modelos.

Resumen

La evolución de los Modelos de Lenguaje Grande (LLMs) ha avanzado significativamente la inteligencia artificial, impulsando la innovación en diversas aplicaciones. Su desarrollo continuo depende de una comprensión profunda de sus capacidades y limitaciones. Esto se logra principalmente a través de una evaluación rigurosa basada en conjuntos de datos diversos. Sin embargo, evaluar modelos de última generación en árabe sigue siendo un desafío formidable debido a la escasez de referencias completas. La ausencia de herramientas de evaluación robustas dificulta el progreso y perfeccionamiento de los LLMs en árabe y limita sus aplicaciones y efectividad en escenarios reales. En respuesta, presentamos GATmath (7 mil preguntas) y GATLc (9 mil preguntas), dos referencias árabes, a gran escala y multitarea para razonamiento y comprensión del lenguaje. Derivados del examen General Aptitude Test (GAT), cada conjunto cubre múltiples categorías que requieren habilidades de razonamiento, análisis semántico, comprensión del lenguaje y resolución de problemas matemáticos. Según nuestro conocimiento, nuestro conjunto es el primer conjunto de datos de razonamiento completo y a gran escala específicamente diseñado para el idioma árabe. Realizamos una evaluación y análisis exhaustivos de siete LLMs destacados en nuestros conjuntos de datos. Sorprendentemente, incluso el modelo con mejor rendimiento alcanzó solo 66.9% y 64.3% de precisión, subrayando el considerable desafío que plantean nuestros conjuntos de datos. Este resultado ilustra la complejidad de las tareas dentro de nuestros conjuntos y destaca el amplio margen de mejora en el desarrollo de modelos de lenguaje árabe.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Saleh R. Al-Ballaa

Nora Al-Twairesh

AbdulMalik S. Al‐Salman

Journals

PLoS ONE

Actions

Institutions

King Saud University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

GATmath y GATLc: Referencias completas para evaluar modelos de lenguaje grande en árabe

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study