现有部署在无人机平台上的轻量级卷积神经网络(CNN)检测器在小目标识别方面存在困难,且难以捕捉长距离空间依赖性,而标准视觉变换器(ViT)结构由于二次计算复杂度,无法在嵌入式硬件上实现实时推断。本文通过边缘计算架构提出一种适用于无人机实时目标检测的ViT集成框架。我们的工作包含三项关键贡献:(1)引入带移位窗口的分层注意力机制,将复杂度从O(n²)降至O(n);(2)基于注意力方差的动态令牌剪枝策略,自适应地丢弃无信息的背景令牌;(3)实现双模边缘-无人机协同架构,实现自主机载处理与服务器辅助计算之间的无缝切换。该轻量级ViT变体在保持94.3%相对准确度的同时,减少了68%的浮点运算(FLOPs)。通过混合精度量化、结构化剪枝和算子融合的系统优化,推断速度相较基线提升11.2倍。在我们收集的无人机航拍数据集上,NVIDIA Jetson Xavier NX平台验证了73.9%的mAP@0.5:0.95及39.2帧每秒(FPS),准确率较YOLOv5s提升4.7%,满足实时性能要求。特别地,小目标检测相比CNN基线提高了7.4%的平均精度(AP)。在DJI Matrice 300 RTK上进行的为期一周的现场试验显示,系统在不同光照条件、平台振动及网络连接中断下均表现稳定,验证了其在搜索救援、灾害响应及基础设施检测等时间敏感场景中的实际应用潜力。
Building similarity graph...
Analyzing shared references across papers
Wenyao Zhu
Ken Chen
Scientific Reports
Lishui University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu等人(Sat,)研究了该问题。
www.synapsesocial.com/papers/6981456cf607237d8b54d42f — DOI: https://doi.org/10.1038/s41598-026-37938-5
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: