La evolución de los Modelos de Lenguaje Grande (LLMs) ha avanzado significativamente la inteligencia artificial, impulsando la innovación en diversas aplicaciones. Su desarrollo continuo depende de una comprensión profunda de sus capacidades y limitaciones. Esto se logra principalmente a través de una evaluación rigurosa basada en conjuntos de datos diversos. Sin embargo, evaluar modelos de última generación en árabe sigue siendo un desafío formidable debido a la escasez de referencias completas. La ausencia de herramientas de evaluación robustas dificulta el progreso y perfeccionamiento de los LLMs en árabe y limita sus aplicaciones y efectividad en escenarios reales. En respuesta, presentamos GATmath (7 mil preguntas) y GATLc (9 mil preguntas), dos referencias árabes, a gran escala y multitarea para razonamiento y comprensión del lenguaje. Derivados del examen General Aptitude Test (GAT), cada conjunto cubre múltiples categorías que requieren habilidades de razonamiento, análisis semántico, comprensión del lenguaje y resolución de problemas matemáticos. Según nuestro conocimiento, nuestro conjunto es el primer conjunto de datos de razonamiento completo y a gran escala específicamente diseñado para el idioma árabe. Realizamos una evaluación y análisis exhaustivos de siete LLMs destacados en nuestros conjuntos de datos. Sorprendentemente, incluso el modelo con mejor rendimiento alcanzó solo 66.9% y 64.3% de precisión, subrayando el considerable desafío que plantean nuestros conjuntos de datos. Este resultado ilustra la complejidad de las tareas dentro de nuestros conjuntos y destaca el amplio margen de mejora en el desarrollo de modelos de lenguaje árabe.
Building similarity graph...
Analyzing shared references across papers
Loading...
Saleh R. Al-Ballaa
Nora Al-Twairesh
AbdulMalik S. Al‐Salman
PLoS ONE
King Saud University
Building similarity graph...
Analyzing shared references across papers
Loading...
Al-Ballaa et al. (Mar.) estudiaron esta cuestión.
www.synapsesocial.com/papers/68bb5f7a6d6d5674bcd03aff — DOI: https://doi.org/10.1371/journal.pone.0329129