March 18, 2024Open Access

FuzzLLM: Ein neuartiges und universelles Fuzzing-Framework zur proaktiven Entdeckung von Jailbreak-Schwachstellen in Large Language Models

Key Points

Key points are not available for this paper at this time.

Abstract

Jailbreak-Schwachstellen in Large Language Models (LLMs), die durch sorgfältig gestaltete Prompts ausgenutzt werden, um Inhalte zu erzeugen, die gegen Dienstleistungsrichtlinien verstoßen, haben das Interesse der Forschungsgemeinschaften geweckt. Während Modellbesitzer einzelne Jailbreak-Prompts durch Sicherheitstrainingsstrategien abwehren können, stößt dieser relativ passive Ansatz an seine Grenzen bei der Handhabung der breiteren Kategorie ähnlicher Jailbreaks. Um dieses Problem zu lösen, stellen wir FuzzLLM vor, ein automatisiertes Fuzzing-Framework, das darauf ausgelegt ist, Jailbreak-Schwachstellen in LLMs proaktiv zu testen und zu entdecken. Wir verwenden Templates, um die strukturelle Integrität eines Prompts zu erfassen und isolieren Schlüsselfunktionen einer Jailbreak-Klasse als Einschränkungen. Durch die Integration verschiedener Basisklassen in leistungsstarke Kombinationsangriffe und die Variation der Elemente der Einschränkungen und verbotenen Fragen ermöglicht FuzzLLM effizientes Testen mit reduziertem manuellem Aufwand. Umfangreiche Experimente zeigen die Effektivität und Vollständigkeit von FuzzLLM bei der Entdeckung von Schwachstellen in verschiedenen LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dongyu Yao

Jianshu Zhang

Ian G. Harris

Actions

Institutions

University of California, Irvine

Wuhan University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FuzzLLM: Ein neuartiges und universelles Fuzzing-Framework zur proaktiven Entdeckung von Jailbreak-Schwachstellen in Large Language Models

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider