April 7, 2024Open Access

Verstecken Sie Ihr böswilliges Ziel in harmlosen Erzählungen: Jailbreak von Large Language Models durch Logik-Ketten-Injektion

Key Points

Key points are not available for this paper at this time.

Abstract

Jailbreak-Angriffe auf Language Model Models (LLMs) beinhalten das Erstellen von Eingabeaufforderungen, die darauf abzielen, die Modelle auszunutzen, um bösartigen Inhalt zu generieren. Bestehende Jailbreak-Angriffe können die LLMs erfolgreich täuschen, jedoch nicht den Menschen. Dieses Papier schlägt eine neue Art von Jailbreak-Angriffen vor, die sowohl die LLMs als auch den Menschen (d.h. Sicherheitsanalysten) täuschen können. Der zentrale Gedanke unserer Idee stammt aus der Sozialpsychologie – Menschen werden leicht getäuscht, wenn die Lüge in der Wahrheit verborgen ist. Basierend auf dieser Erkenntnis schlagen wir Logik-Ketten-Injektionsangriffe vor, um bösartige Absichten in harmlose Wahrheiten einzuschleusen. Der Logik-Ketten-Injektionsangriff zerlegt zunächst sein bösartiges Ziel in eine Kette harmloser Erzählungen und verteilt diese dann in einen verwandten harmlosen Artikel mit unbestreitbaren Fakten. Auf diese Weise kann die neu generierte Eingabeaufforderung nicht nur die LLMs, sondern auch den Menschen täuschen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhilong Wang

Yebo Cao

Peng Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Verstecken Sie Ihr böswilliges Ziel in harmlosen Erzählungen: Jailbreak von Large Language Models durch Logik-Ketten-Injektion

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study