What type of study is this?

October 2, 2025Open Access

Red Teaming multimodaler Sprachmodelle: Bewertung von Schäden über Prompt-Modi und Modelle hinweg

Key Points

Pixtral 12B erzeugte in etwa 62 % der Fälle schädliche Antworten und zeigte somit eine erhebliche Verwundbarkeit.
Statistische Analysen zeigten, dass Modelltyp und Eingabemodalität signifikante Prädiktoren für Schadhaftigkeit sind.
Text-only Eingabeprompts waren geringfügig besser darin, Sicherheitsmechanismen zu umgehen, verglichen mit multimodalen Prompts.
Ein Team von 26 Red Teamern generierte 726 Prompts in drei Schadenskategorien, um Modellausgaben zu bewerten.

Abstract

Multimodale große Sprachmodelle (MLLMs) werden zunehmend in realen Anwendungen eingesetzt, doch ihre Sicherheit unter adversarialen Bedingungen bleibt weitgehend unerforscht. Diese Studie bewertet die Harmlosigkeit von vier führenden MLLMs (GPT-4o, Claude Sonnet 3.5, Pixtral 12B und Qwen VL Plus), wenn sie adversarialen Prompts in Text-only- und multimodalen Formaten ausgesetzt sind. Ein Team von 26 Red Teamern generierte 726 Prompts, die drei Schadenskategorien ansprechen: illegale Aktivitäten, Desinformation und unethisches Verhalten. Diese Prompts wurden jedem Modell vorgelegt, und 17 Annotatoren bewerteten 2.904 Modellausgaben hinsichtlich Schadhaftigkeit auf einer 5-Punkte-Skala. Die Ergebnisse zeigen signifikante Unterschiede in der Verwundbarkeit zwischen den Modellen und Modalitäten. Pixtral 12B zeigte die höchste Rate schädlicher Antworten (~62 %), während Claude Sonnet 3.5 am widerstandsfähigsten war (~10 %). Entgegen der Erwartungen waren Text-only-Prompts etwas effektiver beim Umgehen von Sicherheitsmechanismen als multimodale. Statistische Analysen bestätigten, dass sowohl der Modelltyp als auch die Eingabemodalität signifikante Prädiktoren für Schadhaftigkeit sind. Diese Ergebnisse unterstreichen den dringenden Bedarf an robusten multimodalen Sicherheitsbenchmarks, da MLLMs zunehmend eingesetzt werden.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Madison Van Doren

C. S. Ford

Emily Dix

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Red Teaming multimodaler Sprachmodelle: Bewertung von Schäden über Prompt-Modi und Modelle hinweg

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider