Key points are not available for this paper at this time.
تتضمن هجمات كسر الحماية على نماذج اللغة الكبيرة (LLMs) دفع هذه النماذج لتوليد محتوى ضار ينتهك الأخلاق أو القوانين، مما يشكل تهديدًا كبيرًا لأمن نماذج اللغة الكبيرة. تواجه هجمات كسر الحماية الحالية تحديين رئيسيين: انخفاض معدلات النجاح بسبب التدابير الدفاعية والموارد العالية اللازمة لصياغة مطالبات محددة. تقدم هذه الورقة السياق الافتراضي، الذي يستفيد من الرموز الخاصة التي تم تجاهلها سابقًا في أمان نماذج اللغة الكبيرة، لتحسين هجمات كسر الحماية. يعالج السياق الافتراضي هذه التحديات من خلال زيادة معدلات النجاح بشكل كبير في أساليب الكسر الحالية، ويتطلب معرفة خلفية بسيطة عن النموذج المستهدف، مما يعزز الفعالية في الإعدادات ذات الصندوق الأسود دون أي عبء إضافي. تُظهر التقييمات الشاملة أن هجمات كسر الحماية المدعومة بالسياق الافتراضي يمكن أن تحسّن معدلات النجاح لأربع طرق كسر شهيرة بحوالي 40% عبر نماذج متعددة. بالإضافة إلى ذلك، تطبيق السياق الافتراضي على السلوكيات الخبيثة الأصلية لا يزال يحقق تأثير كسر ملحوظ. ملخصًا، تسلط أبحاثنا الضوء على إمكانيات الرموز الخاصة في هجمات كسر الحماية وتوصي بضم هذا التهديد في اختبارات الفريق الأحمر لتحسين أمان نماذج اللغة الكبيرة بشكل شامل.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuqi Zhou
Lu Lin
Hanchi Sun
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Zhou وآخرون (الجمعة) هذا السؤال.
www.synapsesocial.com/papers/68e62e92b6db6435875c0690 — DOI: https://doi.org/10.48550/arxiv.2406.19845