Le benchmark Massive Multitask Language Understanding (MMLU) est largement utilisé pour évaluer les modèles de langage dans divers domaines. Cependant, les ensembles de données MMLU existants se concentrent principalement sur les langues à ressources élevées comme l'anglais, laissant ainsi les langues à ressources faibles telles que le bengali sous-représentées. Dans cet article, nous présentons BnMMLU, un benchmark pour évaluer les capacités de compréhension multitâche du langage bengali dans les modèles de langage. L'ensemble de données couvre 23 domaines, y compris les sciences, les sciences humaines, les mathématiques et les connaissances générales, et est structuré sous forme de choix multiples pour évaluer les connaissances factuelles, la résolution de problèmes basée sur l'application et les capacités de raisonnement des modèles de langage. Il comprend 138 949 paires question-option. Nous avons évalué plusieurs grands modèles de langage (LLMs) propriétaires et open-source sur le jeu de test BnMMLU. De plus, nous annotons le jeu de test avec trois catégories cognitives – connaissances factuelles, application procédurale et raisonnement – afin d'obtenir des insights plus approfondis sur les forces et faiblesses des modèles à travers diverses tâches cognitives. Les résultats révèlent des écarts de performance significatifs, soulignant la nécessité d'améliorer les stratégies de pré-entraînement et de fine-tuning adaptées aux données bengalis. Nous publions l'ensemble de données et les résultats du benchmark pour faciliter la recherche future dans ce domaine.
Building similarity graph...
Analyzing shared references across papers
Loading...
Saman Sarker Joy
Building similarity graph...
Analyzing shared references across papers
Loading...
Saman Sarker Joy (Sat,) a étudié cette question.
www.synapsesocial.com/papers/68da58d8c1728099cfd11287 — DOI: https://doi.org/10.48550/arxiv.2505.18951
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: