Bestehende leichte Convolutional Neural Network (CNN)-Detektoren, die auf UAV-Plattformen (unbemannte Luftfahrzeuge) eingesetzt werden, haben Schwierigkeiten bei der Erkennung kleiner Objekte und erfassen keine langreichweitigen räumlichen Abhängigkeiten, während Standard Vision Transformer (ViT)-Architekturen unter quadratischer Rechenkomplexität leiden, die eine Echtzeitauswertung auf eingebetteter Hardware verhindert. Dieses Papier überbrückt diese Lücke mit einem integrierten Rahmenwerk, das ViT für UAV-basierte Echtzeit-Objekterkennung durch Edge-Computing-Infrastruktur anpasst. Unsere Arbeit präsentiert drei Hauptbeiträge: (1) einen hierarchischen Aufmerksamkeitsmechanismus mit verschobenen Fenstern, der die Komplexität von O(n²) auf O(n) reduziert, (2) eine dynamische Token-Pruning-Strategie, die uninformative Hintergrund-Tokens adaptiv basierend auf der Aufmerksamkeitsvarianz verwirft, und (3) eine Dual-Modus Edge-UAV-Kollaborationsarchitektur, die nahtloses Umschalten zwischen autonomer Bordverarbeitung und serverunterstützter Berechnung ermöglicht. Die leichte ViT-Variante erzielt eine Reduktion der Gleitkommaoperationen (FLOPs) um 68 % bei gleichzeitiger Erhaltung von 94,3 % relativer Genauigkeit. Durch systematische Optimierung mittels gemischter Präzisionsquantisierung, strukturierter Pruning und Operatorfusion erreichen wir eine 11,2-fache Beschleunigung der Inferenz gegenüber Basisimplementierungen. Experimente mit unserem gesammelten Luftbilddatensatz zeigen 73,9 % mAP@0,5:0,95 bei 39,2 Bildern pro Sekunde (FPS) auf NVIDIA Jetson Xavier NX und übertreffen YOLOv5s um 4,7 % Genauigkeit unter identischen Echtzeitbedingungen. Besonders die Erkennung kleiner Objekte verbessert sich um 7,4 % Average Precision (AP) gegenüber CNN-Baselines. Wochenlange Feldversuche mit DJI Matrice 300 RTK bestätigen anhaltende Leistungsfähigkeit bei variabler Beleuchtung, Plattformvibrationen und intermittierender Netzwerkkonnektivität und belegen so die praktische Anwendbarkeit für zeitkritische Einsätze einschließlich Suche und Rettung, Katastrophenreaktion und Infrastrukturinspektion.
Building similarity graph...
Analyzing shared references across papers
Wenyao Zhu
Ken Chen
Scientific Reports
Lishui University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Sat,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/6981456cf607237d8b54d42f — DOI: https://doi.org/10.1038/s41598-026-37938-5
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: