Adversarielle Angriffe beinhalten, dass böswillige Akteure absichtliche Störungen in Machine-Learning (ML)-Modelle einführen, was unbeabsichtigtes Verhalten verursacht. Dies stellt eine erhebliche Bedrohung für die Integrität und Vertrauenswürdigkeit von ML-Modellen dar und erfordert die Entwicklung robuster Erkennungstechniken, um Systeme vor potenziellen Gefahren zu schützen. Das Paper schlägt einen neuen Ansatz zur Erkennung adversarieller Angriffe vor, der ein Surrogatmodell und diagnostische Attribute nutzt. Die Methode wurde auf 22 tabellarischen Datensätzen getestet, auf denen vier verschiedene ML-Modelle trainiert wurden. Zudem wurden verschiedene Angriffe durchgeführt, die zu manipulierten Daten führten. Der vorgeschlagene Ansatz zeichnet sich durch eine hohe Effizienz bei der Erkennung bekannter und unbekannter Angriffe aus – die balancierte Genauigkeit lag über 0,94, bei sehr niedrigen false negative Raten (0,02–0,10) in der binären Detektion. Sensitivitätsanalysen zeigen, dass auf diagnostischen Attributen trainierte Klassifikatoren auch sehr subtile adversarielle Angriffe erkennen können.
Building similarity graph...
Analyzing shared references across papers
Loading...
Łukasz Wawrowski
Piotr Biczyk
Dominik Ślęzak
Machine Learning and Knowledge Extraction
University of Warsaw
University of Silesia in Katowice
Silesian University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Wawrowski et al. (Mi,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e02f46f0e39f13e7fa2bca — DOI: https://doi.org/10.3390/make7040112
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: