Key points are not available for this paper at this time.
बड़े भाषा मॉडल (LLMs) अक्सर उनके प्री-प्रशिक्षण डेटा में भाषाओं के असमान वितरण के कारण अंग्रेज़ी-केंद्रित होते हैं। पोस्ट-प्रशिक्षण के माध्यम से गैर-अंग्रेज़ी भाषाओं की क्षमताओं को बढ़ाना अक्सर मूल भाषाओं की क्षमता की भयानक भूल को जन्म देता है। पिछले तरीकों में या तो अच्छी विस्तार होती है लेकिन गंभीर भूल होती है, या थोड़ी भूल के साथ खराब विस्तार होता है, जो भाषा विस्तार और भूल को रोकने के बीच संतुलन की चुनौती को दर्शाता है। इस पत्र में, हम MoE-LPR (भाषा प्राथमिकताओं के साथ विशेषज्ञों के मिश्रण के मार्गदर्शन) नामक एक विधि प्रस्तावित करते हैं ताकि इस समस्या को कम किया जा सके। MoE-LPR बहुभाषी क्षमता बढ़ाने के लिए दो-चरणीय प्रशिक्षण दृष्टिकोण अपनाता है। पहले चरण में, मॉडल को Mixture-of-Experts (MoE) वास्तुकला में पोस्ट-प्रशिक्षित किया जाता है, जहाँ सभी मूल पैरामीटर स्थिर रहते हैं और नए विशेषज्ञ जोड़े जाते हैं। इस चरण में, हम मूल भाषा डेटा का उपयोग किए बिना विस्तारित भाषाओं की क्षमता में सुधार पर ध्यान केंद्रित करते हैं। फिर, मॉडल पोस्ट-प्रशिक्षण के 1% से कम की पुनःप्रशिक्षण डेटा के साथ मूल भाषाओं के ज्ञान की समीक्षा करता है, जहाँ हम भाषा प्राथमिकताओं के मार्गदर्शन को शामिल करते हैं ताकि मूल भाषाओं की क्षमताओं को बेहतर ढंग से पुनः प्राप्त किया जा सके। विभिन्न बेंचमार्क पर मूल्यांकन बताते हैं कि MoE-LPR अन्य पोस्ट-प्रशिक्षण विधियों से बेहतर प्रदर्शन करता है। मूल पैरामीटरों को स्थिर रखने से मूल भाषा ज्ञान सुरक्षित रहता है जबकि नए विशेषज्ञ जोड़ने से सीखने की क्षमता बनी रहती है। LPR के साथ समीक्षा पैरामीटरों के भीतर बहुभाषी ज्ञान के प्रभावी उपयोग को सक्षम बनाती है। इसके अतिरिक्त, MoE वास्तुकला कुल मॉडल पैरामीटर बढ़ाने के बावजूद समान पूर्वानुमान ओवरहेड बनाए रखती है। व्यापक प्रयोग दिखाते हैं कि MoE-LPR विस्तारित भाषाओं में सुधार और मूल भाषा दक्षता को संरक्षित करने में प्रभावी है और इसमें बेहतर स्केलेबिलिटी है। कोड और स्क्रिप्ट्स https://github.com/zjwang21/MoE-LPR.git पर उपलब्ध हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Zhou
Zhijun Wang
Shujian Huang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (बुधवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e5b89bb6db64358755105f — DOI: https://doi.org/10.48550/arxiv.2408.11396
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: