August 20, 2024Open Access

खुला-एआई मॉडल प्रभावी मेमोरी प्रबंधन बड़े भाषा मॉडलों (एलएलएम) की सेवा के लिए केवी कैशेस साझा करने के पेज्ड अटेंशन के साथ

Key Points

Key points are not available for this paper at this time.

Abstract

सारांश: बड़े भाषा मॉडलों (एलएलएम) की उच्च थ्रूपुट सेवा के लिए एक बार में पर्याप्त अनुरोधों का बैचिंग आवश्यक है। हालांकि, मौजूदा सिस्टम में समस्या यह है कि प्रत्येक अनुरोध के लिए की-वैल्यू कैश (केवी कैश) मेमोरी बहुत बड़ी होती है जो गतिशील रूप से बढ़ती और घटती रहती है। जब इसे अप्रभावी ढंग से प्रबंधित किया जाता है, तो यह मेमोरी टुकड़ों में टूटने (fragmentation) और अनावश्यक प्रतिलिपि के कारण काफी बर्बाद हो सकती है, जिससे बैच का आकार सीमित हो जाता है। इस समस्या को हल करने के लिए हमने पेज्ड अटेंशन प्रस्तावित किया है। यह एक वैकल्पिक एल्गोरिदम है जो ऑपरेटिंग सिस्टम में पारंपरिक वर्चुअल मेमोरी और पेजिंग तकनीकों से प्रेरित है। यह एक एलएलएम सेवा प्रणाली है जो (1) केवी कैश मेमोरी में लगभग शून्य अपव्यय प्राप्त करती है और (2) अनुरोधों के भीतर और उनके बीच केवी कैश के लचीले साझा करने की सुविधा देती है जिससे मेमोरी उपयोग और कम होता है। हमारे मूल्यांकन दिखाते हैं कि यह एलएलएम लोकप्रिय एलएलएम की थ्रूपुट को मौजूदा अत्याधुनिक प्रणालियों जैसे Faster Transformer और Orca की तुलना में समान विलंबता स्तर के साथ 2-4 गुना बढ़ा देता है। सुधार लंबी श्रृंखलाओं, बड़े मॉडलों, और अधिक जटिल डिकोडिंग एल्गोरिदम के साथ और भी अधिक स्पष्ट होता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

K. Naveen Kumar

Journals

International Journal for Research in Applied Science and Engineering Technology

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider