What question did this study set out to answer?

This work aims to explore concept-based explainable AI methods for improving verification of deep neural networks in computer vision applications.

May 6, 2026Open Access

Post-hoc Concept-based Explainable Artificial Intelligence Methods for Verification of Computer Vision Deep Neural Networks

Key Points

This work aims to explore concept-based explainable AI methods for improving verification of deep neural networks in computer vision applications.
Analyzed stability of existing global C-XAI approaches across different model architectures and tasks.
Introduced Local Concept Embeddings as a new post-hoc method for modeling visual concepts as distributions of instance-specific vectors.
Investigated the impact of adversarial attacks on visual concepts in neural networks.
Found that low-dimensional concept vectors exhibited higher stability.
Demonstrated that visual concept distributions within vision models are more complex than previously believed.
Developed robust tools for model analysis and verification, enhancing transparency in AI systems.

Abstract

Im Bereich des Computer Vision haben tiefe neuronale Netzwerke (Deep Neural Networks, DNNs) eine herausragende Leistungsfähigkeit erreicht. Ihre “Black-Box”-Natur erschwert jedoch die Verifikation und den Einsatz in sicherheitskritischen Anwendungen wie dem autonomen Fahren. Konzeptbasierte erklärbare künstliche Intelligenz (Concept-based Explainable AI, C-XAI) begegnet diesem Problem, indem sie die internen Funktionsweisen solcher Modelle mit für Menschen verständlichen visuellen Konzepten (z.B. “Rad”, “Verkehrsschild”, “Regenwetter”) verknüpft. Bestehende C-XAI-Methoden vereinfachen diese Konzepte jedoch häufig zu einzelnen globalen Vektoren, wodurch ihre komplexe Repräsentationsstruktur verloren geht. Dies wirft Fragen hinsichtlich der Stabilität und Robustheit solcher Methoden in unterschiedlichen visuellen Kontexten auf. Diese Dissertation setzt sich systematisch mit diesen Herausforderungen auseinander und untersucht eingehend die Natur der Konzeptrepräsentationen in modernen Computer-Vision-Modellen. Zunächst wird die Stabilität existierender globaler C-XAI-Ansätze über verschiedene Modellarchitekturen (z.B. CNNs, Vision Transformers) und Aufgabenstellungen (z.B. Klassifikation, Objekterkennung) hinweg analysiert. Dabei zeigt sich, dass niedrigdimensionale Konzeptvektoren eine höhere Stabilität aufweisen. Darüber hinaus werden neue konzeptbasierte Rahmenwerke für den Vergleich von Modellen vorgestellt. Die Arbeit untersucht zudem den Einfluss adversarialer Angriffe und zeigt, dass diese gezielt visuelle Konzepte bestimmter Zielklassen manipulieren, indem sie störende lineare Komponenten in den latenten Raum einführen. Der zentrale Beitrag dieser Arbeit ist die Einführung der Local Concept Embeddings (LoCEs), einer neuen post-hoc-Methode, bei der visuelle Konzepte als Verteilungen lokaler, instanzspezifischer Vektoren modelliert werden. Dieser Ansatz ermöglicht es, die multimodale und überlappende Struktur von Konzeptrepräsentationen aufzudecken. Dadurch wird die Identifikation feingranularer visueller Subkonzepte (z.B. “Auto in Frontansicht” vs. “Auto in Seitenansicht”), das Erkennen von Konzeptverwechslungen bei visuell ähnlichen Klassen sowie das Aufspüren von konzeptuellen Ausreißerbildern ermöglicht. Indem diese Arbeit eine differenziertere Sichtweise auf den latenten Raum bietet, zeigt sie, dass Konzeptverteilungen in Vision-Modellen deutlich komplexer sind als bislang angenommen. Die entwickelten Methoden und Erkenntnisse tragen wesentlich zum besseren Verständnis darüber bei, wie DNNs visuelle Informationen lernen und verarbeiten. Sie liefern robuste Werkzeuge zur Modellanalyse, zum Vergleich und zur Verifikation und fördern so die Entwicklung transparenterer und verlässlicherer KI-Systeme.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Georgii Mikriukov

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Post-hoc Concept-based Explainable Artificial Intelligence Methods for Verification of Computer Vision Deep Neural Networks

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study