기존 경량 컨볼루션 신경망(CNN) 탐지기는 무인 항공기(UAV) 플랫폼에서 작은 객체 인식에 어려움을 겪고 장거리 공간 의존성을 포착하지 못하는 반면, 표준 비전 트랜스포머(ViT) 구조는 제곱 복잡도로 인해 임베디드 하드웨어에서 실시간 추론이 불가능합니다. 본 논문은 엣지 컴퓨팅 인프라를 통해 UAV 기반 실시간 객체 탐지를 위해 ViT를 적응시키는 통합 프레임워크를 제안하여 이 간극을 메웁니다. 주요 기여는 다음과 같습니다: (1) 복잡도를 O(n²)에서 O(n)으로 줄이는 이동 윈도우 계층적 주의 메커니즘, (2) 주의 분산에 기반해 정보가 적은 배경 토큰을 동적으로 제거하는 토큰 프루닝 전략, (3) 자율 온보드 처리와 서버 지원 연산 간의 원활한 전환을 가능케 하는 이중 모드 엣지-UAV 협력 아키텍처. 경량 ViT 변형은 68%의 부동 소수점 연산 감소와 함께 94.3% 상대 정확도를 유지합니다. 혼합 정밀도 양자화, 구조적 프루닝, 연산자 융합을 결합한 체계적 최적화를 통해 기존 구현 대비 11.2배 추론 속도 향상을 달성했습니다. 수집된 항공 데이터셋 실험에서 NVIDIA Jetson Xavier NX에서 39.2 FPS로 73.9% mAP@0.5:0.95를 보여 동일한 실시간 조건에서 YOLOv5s보다 정확도가 4.7% 향상되었습니다. 특히, 작은 객체 탐지는 CNN 기준보다 7.4% AP 향상을 보였습니다. DJI Matrice 300 RTK에서 일주일간 진행된 현장 시험은 다양한 조명, 플랫폼 진동, 간헐적 네트워크 연결에도 지속적인 성능을 확인하여 수색 구조, 재난 대응, 인프라 검사 등 시간에 민감한 실제 응용 가능성을 입증했습니다.
Building similarity graph...
Analyzing shared references across papers
Wenyao Zhu
Ken Chen
Scientific Reports
Lishui University
Building similarity graph...
Analyzing shared references across papers
Zhu 외(Sat,)는 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/6981456cf607237d8b54d42f — DOI: https://doi.org/10.1038/s41598-026-37938-5
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: