본 논문은 모델 기반 강화학습(model-based reinforcement learning, MBRL)중 하나인 model-based policy optimization(MBPO)을 적용하여 one-hole one-ball(OHOB) patience 큐브 태스크를 해결하는 방법을 제안한다. OHOB patience 큐브 태스크는 하나의 작은 공을 큐브 내의 평면 위의 구멍에 넣는 문제로, 강화학습으로 푼다고 가정할 때 상태(state) 및 행동(action) 공간이 크고 정교한 정책(policy)이 요구되는 문제이다. 이에 따라, model-free RL(MFRL)로 이를 해결하기 위해서는 환경과 직접적으로 상호작용해서 얻어야 하는 샘플의 수가 매우 커지는 문제점이 있다. 대조적으로, MBRL은 학습을 통해 추정된 dynamics model을 활용하여 가상의 샘플 데이터를 생성함으로써, 환경과의 실제 상호작용 없이 샘플을 얻을 수 있게 되어 샘플링 효율을 크게 향상시킬 수 있다. 이를 위해, 먼저 OHOB patience cube의 dynamics model을 신경망을 통해 학습하였다. 이어서, 학습한 dynamics model이 적용된 짧은 길이의 branched rollout을 통해 가상 샘플 데이터를 생성하였다. 마지막으로, MBPO를 적용하여 실제 데이터와 생성된 가상 데이터 모두를 활용해 optimal policy를 찾았다. 시뮬레이션을 통해 MFRL과 MBRL로 각각 OHOB patience cube 문제 풀이를 시도하였다. 결과 비교분석을 통해 MBRL이 MFRL 대비 우수한 성능과 높은 샘플링 효율을 가짐을 확인할 수 있었다.
Kim et al. (Sat,) studied this question.