Multimodale große Sprachmodelle (MLLMs) werden zunehmend in realen Anwendungen eingesetzt, doch ihre Sicherheit unter adversarialen Bedingungen bleibt weitgehend unerforscht. Diese Studie bewertet die Harmlosigkeit von vier führenden MLLMs (GPT-4o, Claude Sonnet 3.5, Pixtral 12B und Qwen VL Plus), wenn sie adversarialen Prompts in Text-only- und multimodalen Formaten ausgesetzt sind. Ein Team von 26 Red Teamern generierte 726 Prompts, die drei Schadenskategorien ansprechen: illegale Aktivitäten, Desinformation und unethisches Verhalten. Diese Prompts wurden jedem Modell vorgelegt, und 17 Annotatoren bewerteten 2.904 Modellausgaben hinsichtlich Schadhaftigkeit auf einer 5-Punkte-Skala. Die Ergebnisse zeigen signifikante Unterschiede in der Verwundbarkeit zwischen den Modellen und Modalitäten. Pixtral 12B zeigte die höchste Rate schädlicher Antworten (~62 %), während Claude Sonnet 3.5 am widerstandsfähigsten war (~10 %). Entgegen der Erwartungen waren Text-only-Prompts etwas effektiver beim Umgehen von Sicherheitsmechanismen als multimodale. Statistische Analysen bestätigten, dass sowohl der Modelltyp als auch die Eingabemodalität signifikante Prädiktoren für Schadhaftigkeit sind. Diese Ergebnisse unterstreichen den dringenden Bedarf an robusten multimodalen Sicherheitsbenchmarks, da MLLMs zunehmend eingesetzt werden.
Building similarity graph...
Analyzing shared references across papers
Loading...
Madison Van Doren
C. S. Ford
Emily Dix
Building similarity graph...
Analyzing shared references across papers
Loading...
Doren et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68de5da283cbc991d0a20950 — DOI: https://doi.org/10.48550/arxiv.2509.15478
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: