Key points are not available for this paper at this time.
बड़े भाषा मॉडल (LLMs) ने विभिन्न टेक्स्ट-जनरेटिव कार्यों में असाधारण प्रदर्शन किया है, जिसमें प्रश्नोत्तर, अनुवाद, कोड पूर्णता आदि शामिल हैं। हालांकि, LLMs की अत्यधिक सहायता ने "जेलब्रेकिंग" की चुनौती को जन्म दिया है, जो प्रतिद्वंद्वी प्रॉम्प्ट डिज़ाइन करके मॉडल को उपयोग नीति और समाज के खिलाफ दुर्भावनापूर्ण प्रतिक्रियाएँ उत्पन्न करने के लिए प्रेरित करता है। LLMs में विभिन्न कमजोरियों का शोषण करने वाली जेलब्रेक हमले विधियों के उभरने के साथ-साथ, संबंधित सुरक्षा संरेखण उपाय भी विकसित हो रहे हैं। इस पेपर में, हम जेलब्रेक हमले और रक्षा विधियों का एक व्यापक और विस्तृत वर्गीकरण प्रस्तुत करते हैं। उदाहरण के लिए, हमले की विधियाँ लक्ष्य मॉडल की पारदर्शिता के आधार पर ब्लैक-बॉक्स और व्हाइट-बॉक्स हमलों में विभाजित की गई हैं। इसी समय, हम बचाव विधियों को प्रॉम्प्ट-स्तर और मॉडल-स्तर की रक्षा में वर्गीकृत करते हैं। इसके अतिरिक्त, हम इन हमले और रक्षा विधियों को अलग-अलग उपश्रेणियों में और विभाजित करते हैं और उनके संबंधों को दर्शाने वाला एक सुसंगत चित्र प्रस्तुत करते हैं। हम वर्तमान मूल्यांकन विधियों का भी विश्लेषण करते हैं और विभिन्न दृष्टिकोणों से उनका तुलनात्मक अध्ययन करते हैं। हमारे निष्कर्ष भविष्य के शोध और विपक्षी हमलों से LLMs की सुरक्षा के व्यावहारिक कार्यान्वयन को प्रेरित करने का उद्देश्य रखते हैं। सबसे महत्वपूर्ण बात यह है कि, हालांकि जेलब्रेक समुदाय में एक महत्वपूर्ण चिंता बनी हुई है, हम मानते हैं कि हमारा कार्य इस क्षेत्र की समझ को बढ़ाता है और अधिक सुरक्षित LLMs विकसित करने के लिए एक आधार प्रदान करता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Sibo Yi
Yule Liu
Zhen Sun
Building similarity graph...
Analyzing shared references across papers
Loading...
Yi et al. (Fri,) ने इस प्रश्न पर अध्ययन किया।
www.synapsesocial.com/papers/68e613c2b6db6435875a6749 — DOI: https://doi.org/10.48550/arxiv.2407.04295
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: