Key points are not available for this paper at this time.
सारांश: बड़े भाषा मॉडलों (एलएलएम) की उच्च थ्रूपुट सेवा के लिए एक बार में पर्याप्त अनुरोधों का बैचिंग आवश्यक है। हालांकि, मौजूदा सिस्टम में समस्या यह है कि प्रत्येक अनुरोध के लिए की-वैल्यू कैश (केवी कैश) मेमोरी बहुत बड़ी होती है जो गतिशील रूप से बढ़ती और घटती रहती है। जब इसे अप्रभावी ढंग से प्रबंधित किया जाता है, तो यह मेमोरी टुकड़ों में टूटने (fragmentation) और अनावश्यक प्रतिलिपि के कारण काफी बर्बाद हो सकती है, जिससे बैच का आकार सीमित हो जाता है। इस समस्या को हल करने के लिए हमने पेज्ड अटेंशन प्रस्तावित किया है। यह एक वैकल्पिक एल्गोरिदम है जो ऑपरेटिंग सिस्टम में पारंपरिक वर्चुअल मेमोरी और पेजिंग तकनीकों से प्रेरित है। यह एक एलएलएम सेवा प्रणाली है जो (1) केवी कैश मेमोरी में लगभग शून्य अपव्यय प्राप्त करती है और (2) अनुरोधों के भीतर और उनके बीच केवी कैश के लचीले साझा करने की सुविधा देती है जिससे मेमोरी उपयोग और कम होता है। हमारे मूल्यांकन दिखाते हैं कि यह एलएलएम लोकप्रिय एलएलएम की थ्रूपुट को मौजूदा अत्याधुनिक प्रणालियों जैसे Faster Transformer और Orca की तुलना में समान विलंबता स्तर के साथ 2-4 गुना बढ़ा देता है। सुधार लंबी श्रृंखलाओं, बड़े मॉडलों, और अधिक जटिल डिकोडिंग एल्गोरिदम के साथ और भी अधिक स्पष्ट होता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
K. Naveen Kumar
International Journal for Research in Applied Science and Engineering Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
K. Naveen Kumar (मंगलवार) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e5bb23b6db643587552e98 — DOI: https://doi.org/10.22214/ijraset.2024.63985
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: