컴퓨터 비전 분야에서는 CNN 기반 객체 탐지 모델이 높은 성능을 바탕으로 다양한 분야에서 널리 응용되고 있다. 하지만 CNN의 높은 성능을 위해서 많은 파라미터와 연산량이 요구되는데 이는 자원 사용량에 제한이 있는 임베디드 환경에서의 사용을 어렵게 한다. 이를 임베디드 환경에서 동작시키기 위해 모델 최적화와 하드웨어 아키텍처 설계 연구가 활발히 진행되고 있다. 모델 최적화는 기존 모델의 구조를 변경하여 성능을 높였지만, 경량화된 기존 모델보다 파라미터가 많아 메모리에 제약이 있는 환경에서는 응용이 어려울 수 있다. 하드웨어 아키텍처의 경우, 빠른 연산을 위해 모든 파라미터를 온칩 메모리에 저장하거나 데이터 타일링을 통해 하드웨어 자원 사용을 최적화하였다. 하지만 모든 파라미터를 온칩에 저장하면 사용가능한 하드웨어 자원 총량을 쉽게 초과할 수 있고, 모델의 전 계층에 타일링을 적용하면 지속적인 DRAM 접근으로 지연 시간과 전력 소모가 증가한다. 따라서 본 논문에서는 표준 합성곱과 채널별 합성곱을 결합한 새로운 연산 블록을 구성하고 이를 바탕으로 모델을 재구성해 모델의 크기를 줄이면서도 정확도를 유지하는 모델 구조와 모델의 계층에 따라 연산 방식을 라인 버퍼 기반 연산 방식과 플레인 버퍼 기반 연산 방식의 두 가지로 적용하여 온칩 메모리 사용과 DRAM 접근 간의 균형을 고려한 하드웨어 아키텍처를 제안한다. 제안한 모델 최적화 방법을 YOLOv3-Tiny에 적용한 결과, 80.8%의 파라미터를 절감하면서 62.1%의 정확도를 달성하였고, 제안한 하드웨어 아키텍처를 ZC706 FPGA 보드에 구현한 결과 BRAM18K 314, DSP 306, FFs 25.9k, LUTs 17.9k를 사용하였다.
Kim et al. (Mon,) studied this question.