최근 군사 의사결정 지원 분야에서는 복잡한 전장 의사결정을 자동화하기 위해 심층 강화학습 기반 접근이 활발히 연구되고 있다. 본 논문에서는 지휘결심 지원을 위한 보상 적응형 강화학습 기반 화력운용 시스템을 제안한다. 제안된 시스템은 전장의 상황을 인지하고, 인지된 정보를 바탕으로 지휘관의 요망효과를 달성하기 위한 최적의 의사결정을 수행하도록 설계하였다. 강화학습 기반의 지휘결심 의사결정 방법으로 사전 수집 데이터와 온라인 상호작용 데이터를 통합적으로 활용하며, 보상 정보를 기반으로 한 선택적 모방 학습을 통해 정책의 효율성과 안정성을 동시에 확보한다. 다양한 전장 시나리오를 모사한 시뮬레이션 환경에서 수행한 실험 결과, 제안된 정책은 기존 강화학습 및 휴리스틱 기반 방법 대비 평균 임무 달성률을 약 29% 향상시켰으며, 주어진 제약조건을 준수하면서도 높은 임무 수행 효율을 달성하는 것을 확인하였다.
Lee et al. (Thu,) studied this question.