Key points are not available for this paper at this time.
ट्रांसफॉर्मर आधारित बड़े भाषा मॉडलों ने जबरदस्त सफलता हासिल की है। हालांकि, अनुमान प्रक्रिया के दौरान होने वाली महत्वपूर्ण मेमोरी और कम्प्यूटेशनल लागतों के कारण संसाधन-सीमित उपकरणों पर बड़े मॉडलों को तैनात करना चुनौतीपूर्ण हो जाता है। इस पेपर में, हम बड़े भाषा मॉडलों के लिए संपीड़न और कुशल अनुमान विधियों की एल्गोरिद्मिक दृष्टिकोण से जांच करते हैं। वर्गीकरण के संदर्भ में, छोटे मॉडलों की तरह, बड़े भाषा मॉडलों के लिए संपीड़न और त्वरण एल्गोरिदम को अभी भी क्वांटाइजेशन, प्रूनिंग, डिस्टिलेशन, कॉम्पैक्ट आर्किटेक्चर डिज़ाइन, डायनेमिक नेटवर्क्स में वर्गीकृत किया जा सकता है। हालांकि, बड़े भाषा मॉडलों की दो प्रमुख विशेषताएँ हैं जो छोटे मॉडलों की तुलना में भिन्न हैं: (1) अधिकांश संपीड़न एल्गोरिदम संपीड़न के बाद मॉडल की फाइनट्यूनिंग या यहां तक कि पुनःप्रशिक्षण की आवश्यकता रखते हैं। बड़े मॉडलों का सबसे उल्लेखनीय पहलू मॉडल की फाइनट्यूनिंग या प्रशिक्षण से जुड़ी अत्यंत उच्च लागत है। इसलिए, बड़े मॉडलों के लिए कई एल्गोरिदम, जैसे कि क्वांटाइजेशन और प्रूनिंग, बिना ट्यूनिंग के एल्गोरिदम खोजने लगते हैं। (2) बड़े मॉडल एकल कार्य पर प्रदर्शन की तुलना में बहुमुखी प्रतिभा और सामान्यीकरण पर जोर देते हैं। इसलिए, कई एल्गोरिदम, जैसे कि नॉलेज डिस्टिलेशन, इस बात पर केंद्रित हैं कि संपीड़न के बाद उनकी बहुमुखी प्रतिभा और सामान्यीकरण को कैसे संरक्षित किया जाए। चूंकि ये दोनों विशेषताएं शुरुआती बड़े मॉडलों में बहुत प्रखर नहीं थीं, हमने बड़े भाषा मॉडलों को मध्यम मॉडल और "वास्तविक" बड़े मॉडल में भी विभाजित किया है। इसके अतिरिक्त, हम बड़े मॉडलों के कुशल अनुमान के लिए कुछ परिपक्व फ्रेमवर्क्स का परिचय भी देते हैं, जो मूल संपीड़न या त्वरण एल्गोरिदम का समर्थन कर सकते हैं, जिससे उपयोगकर्ताओं के लिए मॉडल तैनाती बहुत सरल हो जाती है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenxiao Wang
Wei Chen
Yicong Luo
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e78f66b6db643587701108 — DOI: https://doi.org/10.48550/arxiv.2402.09748
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: