Resumo Sistemas de análise de vídeo (VA) estão cada vez mais dependentes da detecção de objetos baseada em redes neurais profundas, onde parâmetros de compressão de vídeo, como resolução, taxa de bits e quantização, afetam significativamente a precisão da inferência. Este artigo apresenta um estudo comparativo de cinco modelos de detecção de objetos, a saber, Fast R‐CNN, EfficientDet, YOLOv5, YOLOv8 e DETR, avaliados usando três níveis de qualidade de vídeo definidos pelo codificador (Alto, Médio e Baixo). O desempenho foi avaliado usando taxa de bits (Mbps), relação sinal-ruído de pico (PSNR, dB) e precisão de detecção para fornecer uma estrutura reproduzível para analisar variações de desempenho induzidas pela compressão. Resultados experimentais revelam que o PSNR escala aproximadamente de forma linear com a taxa de bits, enquanto a precisão de detecção apresenta saturação com retornos decrescentes em taxas de bits mais elevadas. YOLOv5 apresentou a maior robustez à compressão, seguido por Fast R‐CNN e DETR, enquanto EfficientDet e YOLOv8 foram mais sensíveis à degradação da qualidade. Identificamos pontos operacionais práticos que equilibram precisão e eficiência da largura de banda, oferecendo orientação aplicável para co-design de modelo-codificador em aplicações de VA para vigilância e cidades inteligentes.
Masykuroh et al. (Terça,) estudaram esta questão.