Key points are not available for this paper at this time.
बड़े भाषा मॉडल (LLMs) जिन्हें retrieval के साथ संवर्द्धित किया गया है, बाहरी संदर्भों को शामिल करके मजबूत प्रदर्शन और व्यापक बहुमुखी प्रतिभा प्रदर्शित करते हैं। हालांकि, इनपुट की लंबाई पुनः प्राप्त दस्तावेज़ों की संख्या के अनुसार रैखिक रूप से बढ़ती है, जिससे विलंब में गंभीर वृद्धि होती है। इस पेपर में, हम एक नवीन दृष्टिकोण प्रस्तावित करते हैं जिसे Sparse RAG कहा जाता है, जो sparsity के माध्यम से गणना लागतों को कम करने का प्रयास करता है। विशिष्ट रूप से, Sparse RAG पुनः प्राप्त दस्तावेज़ों को समानांतर में संहिताबद्ध करता है, जो पुनः प्राप्त दस्तावेज़ों के लांग-रेंज अटेंशन द्वारा उत्पन्न विलंब को समाप्त करता है। फिर, LLM आउटपुट को केवल अत्यंत प्रासंगिक caches पर ध्यान केंद्रित करके स्वतः अनुक्रमिक रूप से डिकोड करता है, जिन्हें विशेष नियंत्रण टोकनों के साथ LLM को प्रॉम्प्ट करके चुना जाता है। ध्यान देने योग्य है कि Sparse RAG प्रत्येक व्यक्तिगत दस्तावेज़ के मूल्यांकन और प्रतिक्रिया के निर्माण को एक ही प्रक्रिया में जोड़ता है। RAG सिस्टम में डिज़ाइन किया गया sparse तंत्र डिकोडिंग के दौरान लोड किए जाने वाले दस्तावेज़ों की संख्या को कम करने में मदद करता है जिससे RAG सिस्टम की Inference तेज होती है। इसके अलावा, अवांछनीय संदर्भों को फ़िल्टर करना मॉडल के प्रासंगिक संदर्भ पर ध्यान बढ़ाता है, जो स्वाभाविक रूप से इसकी उत्पत्ति गुणवत्ता को बेहतर बनाता है। दो डेटासेट्स के मूल्यांकन परिणाम दिखाते हैं कि Sparse RAG उत्पादन गुणवत्ता और गणनात्मक दक्षता के बीच एक आदर्श संतुलन स्थापित कर सकता है, जिससे यह छोटे और लंबे स्वरूप की निर्माण कार्यों दोनों में अपनी सामान्यीकृत क्षमता प्रदर्शित करता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Yun Zhu
Jia-Chen Gu
C. Sikora
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Sat,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e686bfb6db64358760f60c — DOI: https://doi.org/10.48550/arxiv.2405.16178
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: