June 28, 2024Open Access

السياق الافتراضي: تعزيز هجمات كسر الحماية بحقن رموز خاصة

Key Points

Key points are not available for this paper at this time.

Abstract

تتضمن هجمات كسر الحماية على نماذج اللغة الكبيرة (LLMs) دفع هذه النماذج لتوليد محتوى ضار ينتهك الأخلاق أو القوانين، مما يشكل تهديدًا كبيرًا لأمن نماذج اللغة الكبيرة. تواجه هجمات كسر الحماية الحالية تحديين رئيسيين: انخفاض معدلات النجاح بسبب التدابير الدفاعية والموارد العالية اللازمة لصياغة مطالبات محددة. تقدم هذه الورقة السياق الافتراضي، الذي يستفيد من الرموز الخاصة التي تم تجاهلها سابقًا في أمان نماذج اللغة الكبيرة، لتحسين هجمات كسر الحماية. يعالج السياق الافتراضي هذه التحديات من خلال زيادة معدلات النجاح بشكل كبير في أساليب الكسر الحالية، ويتطلب معرفة خلفية بسيطة عن النموذج المستهدف، مما يعزز الفعالية في الإعدادات ذات الصندوق الأسود دون أي عبء إضافي. تُظهر التقييمات الشاملة أن هجمات كسر الحماية المدعومة بالسياق الافتراضي يمكن أن تحسّن معدلات النجاح لأربع طرق كسر شهيرة بحوالي 40% عبر نماذج متعددة. بالإضافة إلى ذلك، تطبيق السياق الافتراضي على السلوكيات الخبيثة الأصلية لا يزال يحقق تأثير كسر ملحوظ. ملخصًا، تسلط أبحاثنا الضوء على إمكانيات الرموز الخاصة في هجمات كسر الحماية وتوصي بضم هذا التهديد في اختبارات الفريق الأحمر لتحسين أمان نماذج اللغة الكبيرة بشكل شامل.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuqi Zhou

Lu Lin

Hanchi Sun

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

السياق الافتراضي: تعزيز هجمات كسر الحماية بحقن رموز خاصة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study