Les détecteurs CNN légers existants déployés sur les plateformes d'aéronefs sans pilote (UAV) rencontrent des difficultés dans la reconnaissance d'objets de petite taille et ne parviennent pas à capturer les dépendances spatiales à longue portée, tandis que les architectures standard Vision Transformer (ViT) souffrent d'une complexité de calcul quadratique qui interdit l'inférence en temps réel sur le matériel embarqué. Cet article comble cette lacune en proposant un cadre intégré qui adapte le ViT pour la détection d'objets en temps réel basée sur UAV via une infrastructure de edge computing. Notre travail présente trois contributions clés : (1) un mécanisme d'attention hiérarchique avec fenêtres décalées qui réduit la complexité de O(n²) à O(n), (2) une stratégie dynamique de suppression de jetons qui élimine de manière adaptative les jetons d'arrière-plan non informatifs basée sur la variance d'attention, et (3) une architecture collaborative dual-mode edge-UAV permettant un basculement fluide entre le traitement autonome embarqué et le calcul assisté par serveur. La variante ViT légère atteint une réduction de 68% des opérations en virgule flottante (FLOPs) tout en conservant 94,3% de précision relative. Grâce à une optimisation systématique combinant quantification en précision mixte, élagage structuré et fusion d'opérateurs, nous obtenons un gain de vitesse d'inférence de 11,2× par rapport aux implémentations de base. Des expériences sur notre jeu de données aériennes collectées démontrent un mAP@0,5:0,95 de 73,9% à 39,2 images par seconde (FPS) sur NVIDIA Jetson Xavier NX, dépassant la précision de YOLOv5s de 4,7% sous des contraintes temps réel identiques. Notamment, la détection d'objets de petite taille s'améliore de 7,4% en précision moyenne (AP) comparée aux bases CNN. Des essais sur le terrain d'une semaine avec DJI Matrice 300 RTK valident la performance soutenue à travers des variations d'illumination, des vibrations de plateforme et une connectivité réseau intermittente, confirmant la viabilité pratique pour des applications critiques en temps telles que la recherche et sauvetage, la réponse aux catastrophes et l'inspection d'infrastructures.
Building similarity graph...
Analyzing shared references across papers
Wenyao Zhu
Ken Chen
Scientific Reports
Lishui University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Sat,) ont étudié cette question.
www.synapsesocial.com/papers/6981456cf607237d8b54d42f — DOI: https://doi.org/10.1038/s41598-026-37938-5
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: