What question did this study set out to answer?

The aim is to explore a method for generating synthetic data for training graffiti detection software specifically for railway settings.

April 15, 2026Open Access

Synthetic Data-Driven Training Methodology for Graffiti Detection in Railway Scenarios

Key Points

The aim is to explore a method for generating synthetic data for training graffiti detection software specifically for railway settings.
Utilize computer algorithms to generate synthetic graffiti images.
Employ a text-to-image conversion tool to create diverse graffiti forms and colors.
Create a training dataset with segmentation masks for overlaying generated graffiti images.
Train an object detection tool based on the YOLOv9 architecture using the generated dataset.
Investigate various data augmentation methods to enhance training efficiency.
Increased precision from 20% to 40% using solely synthetic data compared to a baseline model.
Improved mAP@0.5 from 10% to 30% using synthetic data alone.
Augmentation with 128 real graffiti images alongside 5566 synthetic images raised precision and mAP@0.5 to 60%.

Abstract

Obwohl Computer Vision-Lösungen durch Künstliche Intelligenz revolutioniert wurden, stoßen auch diese Systeme an ihre Grenzen. KI-basierte Algorithmen des maschinellen Lernens benötigen große Datenmengen für ihr Training, deren Mangel einen erheblichen Engpass im Trainingsprozess darstellen kann. Ein Lösungsansatz besteht darin, mithilfe verschiedener Computer-Algorithmen synthetische Daten zu erzeugen. Diese sind zwar möglicherweise weniger genau als reale Daten, aber deutlich leichter zugänglich. In dieser Arbeit untersuche ich eine mögliche Methodik zur Generierung synthetischer Daten, insbesondere im Hinblick auf deren Verwendung zum Trainieren von Software zur Graffiti-Erkennung im Eisenbahnbereich. Graffiti können Eisenbahnunternehmen Probleme bereiten, da sie Züge beschädigen, zu einem negativen öffentlichen Image des Unternehmens führen und notwendige Markierungen und Schilder verdecken können, die außen an den Zügen sichtbar sein müssen. Daher wäre ein System, das das Unternehmen automatisch über Graffiti an Zügen informiert, von großem Nutzen. Allerdings existieren keine großen öffentlichen Datensätze mit Bildern von Zügen mit Graffiti. Da Graffiti zudem in Form, Größe und Farbe sehr vielfältig sind, sollte ein entsprechender Datensatz eine ähnliche Vielfalt aufweisen. Diese Arbeit zeigt die Machbarkeit der Erzeugung synthetischer Graffiti mithilfe von Computerprogrammen, die die Objekterkennung beschleunigen können. Die Graffiti werden hierfür mit einem Online-Tool zur KI-gestützten Text-zu-Bild-Konvertierung generiert. Ein umfangreicher Trainings-datensatz mit Segmentierungsmasken wird verwendet, und mithilfe dieser Masken werden die Graffiti überlagert. Dieser neu erstellte Datensatz dient anschließend zum Trainieren eines auf YOLOv9 basierenden Objekterkennungstools. Die Ergebnisse dieses Trainings werden anhand eines kleinen realen Datensatzes getestet. Darüber hinaus werden in dieser Arbeit verschiedene Methoden zur Datenanreicherung untersucht, um die Effizienz des Trainings zu verbessern, sowie eine neue Evaluierungsmethode zur besseren Beurteilung der Trainingsergebnisse. Mit rein synthetischen Daten konnte die Präzision von 20% auf 40% und der mAP@0,5-Wert von 10% auf 30% im Vergleich zu einem Basismodell, das mit einem kleinen, öffentlich verfügbaren Graffiti-Datensatz trainiert wurde, gesteigert werden. Als der synthetische Datensatz mit 5566 Bildern um lediglich 128 reale Graffiti-Bilder ergänzt wurde, stiegen sowohl die Präzision als auch der mAP@.5-Wert auf 60%.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ádám Gergelyi

Actions

Institutions

TU Wien

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Synthetic Data-Driven Training Methodology for Graffiti Detection in Railway Scenarios

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study