在嵌入式边缘平台部署大型目标检测器需在检测精度、端到端吞吐量和系统总功耗之间进行权衡。本文基准测试了大型版本YOLOv8l和RT-DETR-l在两种边缘平台上的异构部署运行时表现:带CPU与NPU卸载的Raspberry Pi 5,以及具GPU加速的Nvidia Jetson Orin NX。精度通过COCO val2017上的mAP50-95评估,吞吐量及能效(FPS/W)则在包含解码、预处理、推理和后处理的真实端到端视频管线中测量。模型执行延时与流水线吞吐率分开分析,以避免推理时间和端到端处理速率间的混淆。在Raspberry Pi 5上,仅用CPU执行大模型因单帧延时秒级而不可行,而NPU加速显著提升YOLOv8l的能效,尽管存在可能降低精度的部署限制。Jetson Orin NX上,TensorRT为两种架构提供了最优部署路径;但YOLOv8l与RT-DETR-l的相对排序依赖于运行时实现,而非单纯的名义FLOPs。基于归一化延时与每名义GFLOP能量的广义解读,结合转换灵敏度及量化灵敏度分解表明,部署效率由名义计算需求、存储系统行为、运行时开销及导出量化后精度维持共同决定。测试条件下,评估的所有大型模型配置均未达到25 FPS端到端全流程实时严格目标,表明还需进一步特定硬件优化和/或更小模型版本以满足实时边缘部署需求。
Building similarity graph...
Analyzing shared references across papers
Loading...
Ivan Suchý
Michal Turčaník
Scientific Reports
Armed Forces Academy
Building similarity graph...
Analyzing shared references across papers
Loading...
Suchý等人(Fri,)研究了该问题。
www.synapsesocial.com/papers/69ca1280883daed6ee094fba — DOI: https://doi.org/10.1038/s41598-026-46453-6
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: