June 13, 2024Open Access

Verstehen des Erfolgs von Jailbreaks: Eine Studie der Dynamik des latenten Raums in großen Sprachmodellen

Key Points

Key points are not available for this paper at this time.

Abstract

Konversationelle große Sprachmodelle sind darauf trainiert, schädliche Fragen nicht zu beantworten. Dennoch können aufkommende Jailbreaking-Techniken weiterhin unsichere Ausgaben hervorrufen, was eine anhaltende Herausforderung für die Modellausrichtung darstellt. Um besser zu verstehen, wie unterschiedliche Jailbreak-Typen Schutzmaßnahmen umgehen, analysiert dieses Papier Modellaktivierungen bei verschiedenen Jailbreak-Eingaben. Wir stellen fest, dass es möglich ist, einen Jailbreak-Vektor aus einer einzigen Klasse von Jailbreaks zu extrahieren, der dazu dient, die Wirksamkeit von Jailbreaks anderer Klassen zu verringern. Dies könnte darauf hindeuten, dass verschiedene Arten effektiver Jailbreaks durch ähnliche interne Mechanismen wirken. Wir untersuchen einen potenziellen gemeinsamen Mechanismus der Unterdrückung von Merkmalen der Schädlichkeit und liefern Belege für dessen Existenz durch die Betrachtung der Komponente des Schädlichkeitsvektors. Diese Erkenntnisse bieten umsetzbare Einsichten für die Entwicklung robusterer Gegenmaßnahmen gegen Jailbreaks und legen die Grundlage für ein tieferes, mechanistisches Verständnis der Jailbreak-Dynamik in Sprachmodellen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sarah Ball

Frauke Kreuter

Nina Rimsky

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Verstehen des Erfolgs von Jailbreaks: Eine Studie der Dynamik des latenten Raums in großen Sprachmodellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study