April 5, 2024Open Access

चीनी टाइनी LLM: चीनी-केंद्रित बड़े भाषा मॉडल का प्रीट्रेनिंग

Key Points

Key points are not available for this paper at this time.

Abstract

इस अध्ययन में, हम CT-LLM प्रस्तुत करते हैं, जो एक 2B बड़ा भाषा मॉडल (LLM) है जो LLMs के विकास में चीनी भाषा को प्राथमिकता देने की ओर एक महत्वपूर्ण बदलाव को दर्शाता है। विशिष्ट रूप से स्क्रैच से शुरू किया गया, CT-LLM पारंपरिक पद्धति से अलग है क्योंकि इसमें मुख्य रूप से चीनी पाठ डेटा शामिल है, जिसमें 1,200 अरब टोकन का एक व्यापक कॉर्पस शामिल है, जिसमें 800 अरब चीनी टोकन, 300 अरब अंग्रेजी टोकन और 100 अरब कोड टोकन शामिल हैं। यह रणनीतिक संरचना मॉडल की चीनी भाषा को समझने और संसाधित करने की असाधारण क्षमता को सक्षम बनाती है, जिसे संरेखण तकनीकों के माध्यम से और बढ़ाया गया है। CHC-Bench पर उल्लेखनीय प्रदर्शन प्रदर्शित करते हुए, CT-LLM चीनी भाषा कार्यों में उत्कृष्ट है, और SFT के माध्यम से अंग्रेजी में अपनी दक्षता दिखाता है। यह शोध LLMs को मुख्यतः अंग्रेजी कॉर्पस पर प्रशिक्षित करने और फिर अन्य भाषाओं के लिए अनुकूलित करने के प्रचलित दृष्टिकोण को चुनौती देता है, जिससे LLM प्रशिक्षण विधियों के लिए नए क्षितिज खुलते हैं। चीनी LLM के प्रशिक्षण की पूर्ण प्रक्रिया को ओपन-सोर्स करके, जिसमें प्राप्त मासिव appropriated प्रीट्रेनिंग चीनी कॉर्पस (MAP-CC), एक अच्छी तरह से चुना बहुविषयक चीनी हार्ड केस बेंचमार्क (CHC-Bench), और 2B आकार का चीनी टाइनी LLM (CT-LLM) शामिल है, हम अकादमिक और उद्योग दोनों में और अधिक अन्वेषण और नवोन्मेष को प्रोत्साहित करना चाहते हैं, जो अधिक समावेशी और बहुमुखी भाषा मॉडलों के लिए मार्ग प्रशस्त करता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xinrun Du

Zhouliang Yu

Songyang Gao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

चीनी टाइनी LLM: चीनी-केंद्रित बड़े भाषा मॉडल का प्रीट्रेनिंग

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider