드론 영상을 활용한 객체 탐지는 비용 절감 효과와 조작 용이성으로 인해 지상의 지장물 탐지 등 다양한 산업분야에 적용되고 있으나, 탐지 가능한 대상이 라벨링된 클래스에 종속되는 한계를 가지고 있다. 본 연구에서는 이러한 기존 객체 탐지의 한계점을 개선하기 위한 시각-언어 모델(Vision-Language Model, VLM) 기반의 제로샷(zero-shot) 객체 탐지 기법을 제안한다. 제안 기법은 VLM을 적용하는 기본방식인 텍스트 쿼리 방식이 맥락 표현의 한계가 있음에 착안하여, 참조 이미지에서 추출한 시각 임베딩으로 텍스트 임베딩을 대체하여 활용하고 CNN 기반 이진 분류기를 활용한 후 처리를 통해 탐지 정밀도를 높인다. 고해상도 드론 영상으로 구축한 10개 지장물 클래스, 132장의 데이터셋을 활용한 실험 결과, 제안 기법은 기존 텍스트 기반 방식과 대비하여 8개 클래스에서 최대 약 60% 향상된 탐지 정확도를 보였으며, 특히 맥락 의존적 객체 탐지에서 효과적임이 확인되었다. 향후 텍스트 쿼리 방식과의 하이브리드 구조나 원샷(one-shot) 탐지기법과의 결합을 통해 지장물 탐지의 범용성과 정확성을 더욱 향상시킬 수 있을 것으로 기대된다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dongjae Heo
Gyuejeong Lee
Daeyoung Choi
Journal of the Korea Academia-Industrial cooperation Society
Building similarity graph...
Analyzing shared references across papers
Loading...
Heo et al. (Tue,) studied this question.
www.synapsesocial.com/papers/69df2b85e4eeef8a2a6b0846 — DOI: https://doi.org/10.5762/kais.2026.27.3.1081