July 5, 2024Open Access

जेलब्रेक हमले और बड़े भाषा मॉडल के खिलाफ सुरक्षा: एक सर्वेक्षण

Key Points

Key points are not available for this paper at this time.

Abstract

बड़े भाषा मॉडल (LLMs) ने विभिन्न टेक्स्ट-जनरेटिव कार्यों में असाधारण प्रदर्शन किया है, जिसमें प्रश्नोत्तर, अनुवाद, कोड पूर्णता आदि शामिल हैं। हालांकि, LLMs की अत्यधिक सहायता ने "जेलब्रेकिंग" की चुनौती को जन्म दिया है, जो प्रतिद्वंद्वी प्रॉम्प्ट डिज़ाइन करके मॉडल को उपयोग नीति और समाज के खिलाफ दुर्भावनापूर्ण प्रतिक्रियाएँ उत्पन्न करने के लिए प्रेरित करता है। LLMs में विभिन्न कमजोरियों का शोषण करने वाली जेलब्रेक हमले विधियों के उभरने के साथ-साथ, संबंधित सुरक्षा संरेखण उपाय भी विकसित हो रहे हैं। इस पेपर में, हम जेलब्रेक हमले और रक्षा विधियों का एक व्यापक और विस्तृत वर्गीकरण प्रस्तुत करते हैं। उदाहरण के लिए, हमले की विधियाँ लक्ष्य मॉडल की पारदर्शिता के आधार पर ब्लैक-बॉक्स और व्हाइट-बॉक्स हमलों में विभाजित की गई हैं। इसी समय, हम बचाव विधियों को प्रॉम्प्ट-स्तर और मॉडल-स्तर की रक्षा में वर्गीकृत करते हैं। इसके अतिरिक्त, हम इन हमले और रक्षा विधियों को अलग-अलग उपश्रेणियों में और विभाजित करते हैं और उनके संबंधों को दर्शाने वाला एक सुसंगत चित्र प्रस्तुत करते हैं। हम वर्तमान मूल्यांकन विधियों का भी विश्लेषण करते हैं और विभिन्न दृष्टिकोणों से उनका तुलनात्मक अध्ययन करते हैं। हमारे निष्कर्ष भविष्य के शोध और विपक्षी हमलों से LLMs की सुरक्षा के व्यावहारिक कार्यान्वयन को प्रेरित करने का उद्देश्य रखते हैं। सबसे महत्वपूर्ण बात यह है कि, हालांकि जेलब्रेक समुदाय में एक महत्वपूर्ण चिंता बनी हुई है, हम मानते हैं कि हमारा कार्य इस क्षेत्र की समझ को बढ़ाता है और अधिक सुरक्षित LLMs विकसित करने के लिए एक आधार प्रदान करता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sibo Yi

Yule Liu

Zhen Sun

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

जेलब्रेक हमले और बड़े भाषा मॉडल के खिलाफ सुरक्षा: एक सर्वेक्षण

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider