May 6, 2025Open Access

Eine Übersicht über Hintertür-Bedrohungen in großen Sprachmodellen (LLMs): Angriffe, Verteidigungen und Bewertungsmethoden

Key Points

Key points are not available for this paper at this time.

Abstract

Übersicht Eine Übersicht über Hintertür-Bedrohungen in großen Sprachmodellen (LLMs): Angriffe, Verteidigungen und Bewertungsmethoden Yihe Zhou 1, Tao Ni 1, Wei-Bin Lee 2,3 und Qingchuan Zhao 1,* 1 Fachbereich Informatik, City University of Hong Kong, Hongkong SAR, China 2 Informationssicherheitszentrum, Hon Hai Forschungsinstitut, New Taipei City 236, Taiwan 3 Fachbereich Informationstechnik und Informatik, Feng Chia Universität, Taichung 407, Taiwan * Korrespondenz: qizhao@cityu.edu.hk Eingegangen: 3. Feb. 2025; Überarbeitet: 15. April 2025; Akzeptiert: 18. April 2025; Veröffentlicht: 6. Mai 2025 Zusammenfassung: Große Sprachmodelle (LLMs) haben bedeutend fortgeschrittene Fähigkeiten im Verständnis und der Erzeugung menschlicher Sprachtexte erreicht, die in den letzten Jahren zunehmende Popularität erlangt haben. Abgesehen von ihrer hochmodernen Leistung in der Verarbeitung natürlicher Sprache (NLP), wachsen angesichts ihrer weitverbreiteten Nutzung in vielen Branchen, einschließlich Medizin, Finanzen, Bildung usw., die Sicherheitsbedenken bezüglich ihrer Verwendung gleichzeitig. In den letzten Jahren hat sich die Entwicklung von Hintertür-Angriffen mit dem Fortschritt der Verteidigungsmechanismen dagegen und den weiterentwickelten Funktionen in den LLMs weiterentwickelt. In diesem Papier passen wir die allgemeine Taxonomie zur Klassifikation von Angriffen im maschinellen Lernen auf eine der Unterkategorien – Trainingszeit-White-Box-Hintertür-Angriffe – an. Neben der systematischen Klassifikation von Angriffsmethoden berücksichtigen wir auch die entsprechenden Verteidigungsmethoden gegen Hintertür-Angriffe. Durch die Bereitstellung einer umfangreichen Zusammenfassung bestehender Arbeiten hoffen wir, dass diese Übersicht als Leitfaden zur Inspiration zukünftiger Forschung dienen kann, die Angriffsszenarien weiter ausdehnt und stärkere Verteidigungen gegen diese schafft, um robustere LLMs zu fördern.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yang‐Yang Zhou

Tao Ni

Wei‐Bin Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Eine Übersicht über Hintertür-Bedrohungen in großen Sprachmodellen (LLMs): Angriffe, Verteidigungen und Bewertungsmethoden

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider