May 25, 2024Open Access

Sparse Context Selection के माध्यम से Retrieval-Augmented Generation की Inference को तेज करना

Key Points

Key points are not available for this paper at this time.

Abstract

बड़े भाषा मॉडल (LLMs) जिन्हें retrieval के साथ संवर्द्धित किया गया है, बाहरी संदर्भों को शामिल करके मजबूत प्रदर्शन और व्यापक बहुमुखी प्रतिभा प्रदर्शित करते हैं। हालांकि, इनपुट की लंबाई पुनः प्राप्त दस्तावेज़ों की संख्या के अनुसार रैखिक रूप से बढ़ती है, जिससे विलंब में गंभीर वृद्धि होती है। इस पेपर में, हम एक नवीन दृष्टिकोण प्रस्तावित करते हैं जिसे Sparse RAG कहा जाता है, जो sparsity के माध्यम से गणना लागतों को कम करने का प्रयास करता है। विशिष्ट रूप से, Sparse RAG पुनः प्राप्त दस्तावेज़ों को समानांतर में संहिताबद्ध करता है, जो पुनः प्राप्त दस्तावेज़ों के लांग-रेंज अटेंशन द्वारा उत्पन्न विलंब को समाप्त करता है। फिर, LLM आउटपुट को केवल अत्यंत प्रासंगिक caches पर ध्यान केंद्रित करके स्वतः अनुक्रमिक रूप से डिकोड करता है, जिन्हें विशेष नियंत्रण टोकनों के साथ LLM को प्रॉम्प्ट करके चुना जाता है। ध्यान देने योग्य है कि Sparse RAG प्रत्येक व्यक्तिगत दस्तावेज़ के मूल्यांकन और प्रतिक्रिया के निर्माण को एक ही प्रक्रिया में जोड़ता है। RAG सिस्टम में डिज़ाइन किया गया sparse तंत्र डिकोडिंग के दौरान लोड किए जाने वाले दस्तावेज़ों की संख्या को कम करने में मदद करता है जिससे RAG सिस्टम की Inference तेज होती है। इसके अलावा, अवांछनीय संदर्भों को फ़िल्टर करना मॉडल के प्रासंगिक संदर्भ पर ध्यान बढ़ाता है, जो स्वाभाविक रूप से इसकी उत्पत्ति गुणवत्ता को बेहतर बनाता है। दो डेटासेट्स के मूल्यांकन परिणाम दिखाते हैं कि Sparse RAG उत्पादन गुणवत्ता और गणनात्मक दक्षता के बीच एक आदर्श संतुलन स्थापित कर सकता है, जिससे यह छोटे और लंबे स्वरूप की निर्माण कार्यों दोनों में अपनी सामान्यीकृत क्षमता प्रदर्शित करता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yun Zhu

Jia-Chen Gu

C. Sikora

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Sparse Context Selection के माध्यम से Retrieval-Augmented Generation की Inference को तेज करना

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider