Key points are not available for this paper at this time.
Jailbreak-Schwachstellen in Large Language Models (LLMs), die durch sorgfältig gestaltete Prompts ausgenutzt werden, um Inhalte zu erzeugen, die gegen Dienstleistungsrichtlinien verstoßen, haben das Interesse der Forschungsgemeinschaften geweckt. Während Modellbesitzer einzelne Jailbreak-Prompts durch Sicherheitstrainingsstrategien abwehren können, stößt dieser relativ passive Ansatz an seine Grenzen bei der Handhabung der breiteren Kategorie ähnlicher Jailbreaks. Um dieses Problem zu lösen, stellen wir FuzzLLM vor, ein automatisiertes Fuzzing-Framework, das darauf ausgelegt ist, Jailbreak-Schwachstellen in LLMs proaktiv zu testen und zu entdecken. Wir verwenden Templates, um die strukturelle Integrität eines Prompts zu erfassen und isolieren Schlüsselfunktionen einer Jailbreak-Klasse als Einschränkungen. Durch die Integration verschiedener Basisklassen in leistungsstarke Kombinationsangriffe und die Variation der Elemente der Einschränkungen und verbotenen Fragen ermöglicht FuzzLLM effizientes Testen mit reduziertem manuellem Aufwand. Umfangreiche Experimente zeigen die Effektivität und Vollständigkeit von FuzzLLM bei der Entdeckung von Schwachstellen in verschiedenen LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dongyu Yao
Jianshu Zhang
Ian G. Harris
University of California, Irvine
Wuhan University
Building similarity graph...
Analyzing shared references across papers
Loading...
Yao et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e7375cb6db6435876b0cc9 — DOI: https://doi.org/10.1109/icassp48485.2024.10448041
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: