Diese Studie stellt ein Echtzeit-Bird-Sound-Erkennungssystem vor, das mit Deep Transfer Learning entwickelt und für den mobilen Einsatz optimiert wurde. Ein kuratierter Xeno-canto-Korpus, ein offen zugängliches Repositorium von Wildtier-Soundaufnahmen, die von Citizen Scientists weltweit beigetragen wurden und 610 taiwanesische Vogelarten umfassen, wurde verwendet, um sechs Deep-Learning-Architekturen zu bewerten: Residual Network-18 (ResNet-18), Yet Another Mobile Network (YAMNet), Visual Geometry Group-ähnliches Netzwerk für Audio-Klassifikation (VGGish), Convolutional Neural Network–Long Short-Term Memory (CNN-LSTM), Aufmerksamkeits-basiertes Convolutional Neural Network (Attention-CNN) und eine Deep Neural Network (DNN)-Basislinie. Alle Modelle wurden unter Verwendung von Klassen-Gewichtung, Batch-Normalisierung, einer Dropout-Rate von 0,2 und gezielter Datenaugmentation einschließlich Tonhöhenschwankung (±2 Halbtonschritte), Zeitdehnung (0,8–1,2) und Zeitverschiebung (16.000 Samples) trainiert. Unter diesen erreichte ResNet-18 das beste Gleichgewicht zwischen Genauigkeit und Rechenleistung mit einer Gesamtgenauigkeit von 0,955, einer Makro-Präzision von 0,95, einem Makro-Recall von 0,94 und einem Makro-F1 von 0,945 über alle 610 Klassen. Das Modell führt Inferenz in 25,9 Millisekunden mit nur 3,03 Megabyte Speicher (ca. 795.000 Parameter) durch und übertrifft damit schwergewichtigere Architekturen wie VGGish (0,8975 Genauigkeit, 42,2 Millisekunden, 587 Megabyte), während es mit kompakten Alternativen wie YAMNet (0,935 Genauigkeit, 27,0 Millisekunden, 10,19 Megabyte) konkurrenzfähig bleibt. Darüber hinaus bestätigen Gradient-weighted Class Activation Mapping (Grad-CAM)-Visualisierungen, dass die Vorhersagen durch artspezifische zeitlich-spektrale Muster statt durch Hintergrundgeräusche getrieben werden. Die Umwandlung des optimierten Modells zu TensorFlow Lite ermöglicht eine vollständig offline Inferenz auf Android-Geräten, eliminiert die Latenz in der Cloud und gewährleistet die Privatsphäre der Nutzer. Insgesamt bietet dieses leichtgewichtige, hochgenaue Framework eine skalierbare und praktische Lösung für die Echtzeit-Überwachung der Biodiversität und die Naturschutzforschung.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hailemariam Abebe Endalamaw
C. C. Yang
Cheng-Hung Hsu
Multimedia Tools and Applications
National Taiwan University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Endalamaw et al. (Do,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69a75ddbc6e9836116a28216 — DOI: https://doi.org/10.1007/s11042-026-21211-y
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: