Key points are not available for this paper at this time.
Jailbreak-Angriffe auf Language Model Models (LLMs) beinhalten das Erstellen von Eingabeaufforderungen, die darauf abzielen, die Modelle auszunutzen, um bösartigen Inhalt zu generieren. Bestehende Jailbreak-Angriffe können die LLMs erfolgreich täuschen, jedoch nicht den Menschen. Dieses Papier schlägt eine neue Art von Jailbreak-Angriffen vor, die sowohl die LLMs als auch den Menschen (d.h. Sicherheitsanalysten) täuschen können. Der zentrale Gedanke unserer Idee stammt aus der Sozialpsychologie – Menschen werden leicht getäuscht, wenn die Lüge in der Wahrheit verborgen ist. Basierend auf dieser Erkenntnis schlagen wir Logik-Ketten-Injektionsangriffe vor, um bösartige Absichten in harmlose Wahrheiten einzuschleusen. Der Logik-Ketten-Injektionsangriff zerlegt zunächst sein bösartiges Ziel in eine Kette harmloser Erzählungen und verteilt diese dann in einen verwandten harmlosen Artikel mit unbestreitbaren Fakten. Auf diese Weise kann die neu generierte Eingabeaufforderung nicht nur die LLMs, sondern auch den Menschen täuschen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhilong Wang
Yebo Cao
Peng Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Sun,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e701fab6db64358767c041 — DOI: https://doi.org/10.48550/arxiv.2404.04849