What question did this study set out to answer?

A pesquisa visa avaliar como diferentes qualidades de compressão de vídeo impactam o desempenho de vários modelos de detecção de objetos.

March 13, 2026Open Access

Comparação de desempenho de modelos de detecção de objetos para análise de vídeo sob diferentes condições de qualidade de compressão de vídeo

Key Points

A pesquisa visa avaliar como diferentes qualidades de compressão de vídeo impactam o desempenho de vários modelos de detecção de objetos.
Comparação de cinco modelos de detecção de objetos: Fast R-CNN, EfficientDet, YOLOv5, YOLOv8 e DETR.
Avaliação do desempenho dos modelos sob três níveis de qualidade de vídeo: Alto, Médio e Baixo.
Avaliação do desempenho usando taxa de bits (Mbps), relação sinal-ruído de pico (PSNR, dB) e precisão de detecção.
PSNR escala aproximadamente de forma linear com a taxa de bits.
A precisão de detecção mostra saturação com retornos decrescentes em taxas de bits mais elevadas.
YOLOv5 é o mais robusto contra compressão, enquanto EfficientDet e YOLOv8 são mais sensíveis à degradação.

Abstract

Resumo Sistemas de análise de vídeo (VA) estão cada vez mais dependentes da detecção de objetos baseada em redes neurais profundas, onde parâmetros de compressão de vídeo, como resolução, taxa de bits e quantização, afetam significativamente a precisão da inferência. Este artigo apresenta um estudo comparativo de cinco modelos de detecção de objetos, a saber, Fast R‐CNN, EfficientDet, YOLOv5, YOLOv8 e DETR, avaliados usando três níveis de qualidade de vídeo definidos pelo codificador (Alto, Médio e Baixo). O desempenho foi avaliado usando taxa de bits (Mbps), relação sinal-ruído de pico (PSNR, dB) e precisão de detecção para fornecer uma estrutura reproduzível para analisar variações de desempenho induzidas pela compressão. Resultados experimentais revelam que o PSNR escala aproximadamente de forma linear com a taxa de bits, enquanto a precisão de detecção apresenta saturação com retornos decrescentes em taxas de bits mais elevadas. YOLOv5 apresentou a maior robustez à compressão, seguido por Fast R‐CNN e DETR, enquanto EfficientDet e YOLOv8 foram mais sensíveis à degradação da qualidade. Identificamos pontos operacionais práticos que equilibram precisão e eficiência da largura de banda, oferecendo orientação aplicável para co-design de modelo-codificador em aplicações de VA para vigilância e cidades inteligentes.

Comparação de desempenho de modelos de detecção de objetos para análise de vídeo sob diferentes condições de qualidade de compressão de vídeo

Key Points

Abstract

Cite This Study