तर्क-आधारित बड़े भाषा मॉडलों (LLMs) में हाल की प्रगति, विशेषकर परीक्षण-समय स्केलिंग के माध्यम से उनकी क्षमता ने कोड जनरेशन और समालोचना में संक्षेपण के लिए महत्वपूर्ण अवसर पैदा किए हैं। हालांकि, दोनों क्षेत्रों में प्रगति मौलिक रूप से बड़े पैमाने पर, उच्च गुणवत्ता वाले डेटा सेट पर निर्भर करती है। इस कार्य में, हम OpenCodeReasoning-II प्रस्तुत करते हैं, जो 2.5 मिलियन प्रश्न-समाधान-समालोचना ट्रिपल्स (लगभग 35 हजार अद्वितीय प्रोग्रामिंग प्रश्न) का एक डेटासेट है, जो इसे पहले के सबसे बड़े सार्वजनिक रूप से उपलब्ध कोड तर्क डेटासेट के लगभग दोगुना आकार देता है। इस कार्य में, हम दो-चरणीय निरीक्षित फाइन-ट्यूनिंग रणनीति का उपयोग करते हैं। पहला चरण कोड जनरेशन के लिए फाइन-ट्यूनिंग पर केंद्रित है, जबकि दूसरा चरण मॉडल के सह-प्रशिक्षण में कोड जनरेशन और समालोचना दोनों के लिए शामिल है। हमारे परिणामी फाइन-ट्यून किए गए Qwen2.5-Instruct मॉडल्स कोड जनरेशन में प्रदर्शन करते हैं जो या तो सबसे पहले के खुले-भार संक्षिप्त मॉडल्स से बेहतर या समान है। विशेष रूप से, हमारे कोड जनरेशन और समालोचना मॉडल्स के एकीकरण से प्रतिस्पर्धी कोडिंग प्रदर्शन में महत्वपूर्ण सुधार होता है। इसके अलावा, हम LiveCodeBench बेंचमार्क का एक विस्तार प्रस्तुत करते हैं जो विशेष रूप से C++ प्रोग्रामिंग भाषा का समर्थन करता है, इस प्रकार इस बेंचमार्क का उपयोग करते हुए LLM के लिए और अधिक व्यापक मूल्यांकन को सुविधाजनक बनाता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Wasi Uddin Ahmad
Somshubra Majumdar
Aleksander Ficek
Building similarity graph...
Analyzing shared references across papers
Loading...
अहमद और अन्य (शुक्रवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68de5d9c83cbc991d0a204bc — DOI: https://doi.org/10.48550/arxiv.2507.09075
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: