July 17, 2024Open Access

TurkishMMLU: तुर्की भाषा में व्यापक मल्टीटास्क भाषा समझ का मापन

Key Points

Key points are not available for this paper at this time.

Abstract

मल्टीपल चॉइस प्रश्न उत्तर देने के कार्य बड़े भाषा मॉडल्स (LLMs) की तर्क, समझ, और गणितीय क्षमताओं का मूल्यांकन करते हैं। जबकि मौजूदा बेंचमार्क बहुभाषी मूल्यांकन के लिए स्वचालित अनुवाद का उपयोग करते हैं, यह दृष्टिकोण त्रुटिपूर्ण होता है और विशेष रूप से सामाजिक विज्ञान में सांस्कृतिक पूर्वाग्रही प्रश्न पेश कर सकता है। हम TurkishMMLU प्रस्तुत करते हैं, पहला मल्टीटास्क, बहुविकल्पीय तुर्की QA बेंचमार्क, जो LLMs की तुर्की भाषा की समझ का मूल्यांकन करता है। TurkishMMLU में 10,000 से अधिक प्रश्न शामिल हैं, जो तुर्की के उच्च-विद्यालय शिक्षा पाठ्यक्रम से 9 विभिन्न विषयों को कवर करते हैं। ये प्रश्न पाठ्यक्रम विशेषज्ञों द्वारा लिखे गए हैं, जो तुर्की के उच्च विद्यालय पाठ्यक्रमों के लिए उपयुक्त हैं और विषयों में प्राकृतिक विज्ञान, गणितीय प्रश्न, साथ ही तुर्की साहित्य और तुर्की गणराज्य के इतिहास जैसे सांस्कृतिक रूप से प्रतिनिधित्व वाले विषय शामिल हैं। हमने 20 से अधिक LLMs का मूल्यांकन किया है, जिनमें बहुभाषी ओपन-सोर्स (जैसे Gemma, Llama, MT5), क्लोज़्ड-सोर्स (GPT 4o, Claude, Gemini), और तुर्की-अनुकूलित (जैसे Trendyol) मॉडल शामिल हैं। हम विस्तृत मूल्यांकन प्रदान करते हैं, जिसमें शून्य-शॉट और कुछ-शॉट मूल्यांकन, सोच की श्रृंखला तर्क, और प्रश्न कठिनाई विश्लेषण के साथ मॉडल प्रदर्शन शामिल हैं। हम वर्तमान LLMs की तुर्की क्षमताओं और सीमाओं का गहन विश्लेषण प्रदान करते हैं ताकि तुर्की भाषा के लिए भविष्य के LLMs के लिए अंतर्दृष्टि दी जा सके। हम डेटासेट और मूल्यांकन के लिए अपना कोड सार्वजनिक रूप से जारी करते हैं: https://github.com/ArdaYueksel/TurkishMMLU.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Arda Yüksel

Abdullatif Köksal

Lütfi Kerem Şenel

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

TurkishMMLU: तुर्की भाषा में व्यापक मल्टीटास्क भाषा समझ का मापन

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider