Key points are not available for this paper at this time.
मल्टीपल चॉइस प्रश्न उत्तर देने के कार्य बड़े भाषा मॉडल्स (LLMs) की तर्क, समझ, और गणितीय क्षमताओं का मूल्यांकन करते हैं। जबकि मौजूदा बेंचमार्क बहुभाषी मूल्यांकन के लिए स्वचालित अनुवाद का उपयोग करते हैं, यह दृष्टिकोण त्रुटिपूर्ण होता है और विशेष रूप से सामाजिक विज्ञान में सांस्कृतिक पूर्वाग्रही प्रश्न पेश कर सकता है। हम TurkishMMLU प्रस्तुत करते हैं, पहला मल्टीटास्क, बहुविकल्पीय तुर्की QA बेंचमार्क, जो LLMs की तुर्की भाषा की समझ का मूल्यांकन करता है। TurkishMMLU में 10,000 से अधिक प्रश्न शामिल हैं, जो तुर्की के उच्च-विद्यालय शिक्षा पाठ्यक्रम से 9 विभिन्न विषयों को कवर करते हैं। ये प्रश्न पाठ्यक्रम विशेषज्ञों द्वारा लिखे गए हैं, जो तुर्की के उच्च विद्यालय पाठ्यक्रमों के लिए उपयुक्त हैं और विषयों में प्राकृतिक विज्ञान, गणितीय प्रश्न, साथ ही तुर्की साहित्य और तुर्की गणराज्य के इतिहास जैसे सांस्कृतिक रूप से प्रतिनिधित्व वाले विषय शामिल हैं। हमने 20 से अधिक LLMs का मूल्यांकन किया है, जिनमें बहुभाषी ओपन-सोर्स (जैसे Gemma, Llama, MT5), क्लोज़्ड-सोर्स (GPT 4o, Claude, Gemini), और तुर्की-अनुकूलित (जैसे Trendyol) मॉडल शामिल हैं। हम विस्तृत मूल्यांकन प्रदान करते हैं, जिसमें शून्य-शॉट और कुछ-शॉट मूल्यांकन, सोच की श्रृंखला तर्क, और प्रश्न कठिनाई विश्लेषण के साथ मॉडल प्रदर्शन शामिल हैं। हम वर्तमान LLMs की तुर्की क्षमताओं और सीमाओं का गहन विश्लेषण प्रदान करते हैं ताकि तुर्की भाषा के लिए भविष्य के LLMs के लिए अंतर्दृष्टि दी जा सके। हम डेटासेट और मूल्यांकन के लिए अपना कोड सार्वजनिक रूप से जारी करते हैं: https://github.com/ArdaYueksel/TurkishMMLU.
Building similarity graph...
Analyzing shared references across papers
Loading...
Arda Yüksel
Abdullatif Köksal
Lütfi Kerem Şenel
Building similarity graph...
Analyzing shared references across papers
Loading...
Yüksel et al. (बुधवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e60128b6db643587594a91 — DOI: https://doi.org/10.48550/arxiv.2407.12402
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: