What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

BnMMLU : Mesurer la compréhension massive multitâche du langage en bengali

Key Points

L'ensemble de données BnMMLU comprend 138 949 paires question-option réparties sur 23 domaines, avec un focus sur le bengali.
Les résultats montrent des écarts de performance significatifs dans les modèles de langage existants testés sur BnMMLU, indiquant un besoin d'amélioration.
Ce benchmark catégorise les questions en trois types cognitifs pour évaluer les forces, faiblesses et axes d'amélioration des modèles.
L'étude souligne la sous-représentation des langues à faibles ressources dans les ensembles de données existants et la nécessité d'une formation de modèles adaptée.

Abstract

Le benchmark Massive Multitask Language Understanding (MMLU) est largement utilisé pour évaluer les modèles de langage dans divers domaines. Cependant, les ensembles de données MMLU existants se concentrent principalement sur les langues à ressources élevées comme l'anglais, laissant ainsi les langues à ressources faibles telles que le bengali sous-représentées. Dans cet article, nous présentons BnMMLU, un benchmark pour évaluer les capacités de compréhension multitâche du langage bengali dans les modèles de langage. L'ensemble de données couvre 23 domaines, y compris les sciences, les sciences humaines, les mathématiques et les connaissances générales, et est structuré sous forme de choix multiples pour évaluer les connaissances factuelles, la résolution de problèmes basée sur l'application et les capacités de raisonnement des modèles de langage. Il comprend 138 949 paires question-option. Nous avons évalué plusieurs grands modèles de langage (LLMs) propriétaires et open-source sur le jeu de test BnMMLU. De plus, nous annotons le jeu de test avec trois catégories cognitives – connaissances factuelles, application procédurale et raisonnement – afin d'obtenir des insights plus approfondis sur les forces et faiblesses des modèles à travers diverses tâches cognitives. Les résultats révèlent des écarts de performance significatifs, soulignant la nécessité d'améliorer les stratégies de pré-entraînement et de fine-tuning adaptées aux données bengalis. Nous publions l'ensemble de données et les résultats du benchmark pour faciliter la recherche future dans ce domaine.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Saman Sarker Joy

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

BnMMLU : Mesurer la compréhension massive multitâche du langage en bengali

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider