What question did this study set out to answer?

目标是评估大型目标检测器YOLOv8和RT-DETR在边缘设备上的能效与性能表现。

March 30, 2026Open Access

大型YOLOv8与RT-DETR在边缘设备实时检测中的能效评估综述

Key Points

目标是评估大型目标检测器YOLOv8和RT-DETR在边缘设备上的能效与性能表现。
在不同边缘平台上对YOLOv8与RT-DETR进行基准测试。
使用COCO val2017通过mAP50-95评估检测精度。
在真实视频管线中测量吞吐量及能效(FPS/W)。
分开分析模型执行延时和流水线吞吐率。
Raspberry Pi 5在仅CPU执行时面临多秒级延迟难题。
NPU加速显著提升YOLOv8l的能效表现。
Jetson Orin NX在TensorRT下部署表现更佳；性能依赖于运行时实现。
无配置达到25 FPS实时目标，表明需进行额外优化。

Abstract

在嵌入式边缘平台部署大型目标检测器需在检测精度、端到端吞吐量和系统总功耗之间进行权衡。本文基准测试了大型版本YOLOv8l和RT-DETR-l在两种边缘平台上的异构部署运行时表现：带CPU与NPU卸载的Raspberry Pi 5，以及具GPU加速的Nvidia Jetson Orin NX。精度通过COCO val2017上的mAP50-95评估，吞吐量及能效（FPS/W）则在包含解码、预处理、推理和后处理的真实端到端视频管线中测量。模型执行延时与流水线吞吐率分开分析，以避免推理时间和端到端处理速率间的混淆。在Raspberry Pi 5上，仅用CPU执行大模型因单帧延时秒级而不可行，而NPU加速显著提升YOLOv8l的能效，尽管存在可能降低精度的部署限制。Jetson Orin NX上，TensorRT为两种架构提供了最优部署路径；但YOLOv8l与RT-DETR-l的相对排序依赖于运行时实现，而非单纯的名义FLOPs。基于归一化延时与每名义GFLOP能量的广义解读，结合转换灵敏度及量化灵敏度分解表明，部署效率由名义计算需求、存储系统行为、运行时开销及导出量化后精度维持共同决定。测试条件下，评估的所有大型模型配置均未达到25 FPS端到端全流程实时严格目标，表明还需进一步特定硬件优化和/或更小模型版本以满足实时边缘部署需求。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ivan Suchý

Michal Turčaník

Journals

Scientific Reports

Actions

Institutions

Armed Forces Academy

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

大型YOLOv8与RT-DETR在边缘设备实时检测中的能效评估综述

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider