Key points are not available for this paper at this time.
중요 샘플링(IS)은 오프-정책 강화 학습 접근 방식의 큰 물결을 위한 기본 기술을 나타냅니다. 특히 정책 기울기(PG) 방법은 IS의 유익을 크게 보아, 이전에 수집된 샘플을 효과적으로 재사용할 수 있게 하여 샘플 효율성을 증가시킵니다. 그러나 전통적으로 IS는 역사적 샘플의 재가중화에 대한 수동적인 도구로 강화 학습(RL)에서 사용됩니다. 통계 커뮤니티는 IS를 행동 분포와 결합하여 사용되는 능동적인 도구로 사용하여 샘플 평균보다도 추정 분산을 줄일 수 있게 합니다. 본 논문에서는 행동 정책 최적화(BPO) 문제를 다루면서 두 번째 설정에 초점을 맞춥니다. 우리는 정책 기울기 분산을 최대한 줄일 수 있는 샘플을 수집하기 위한 최선의 행동 정책을 찾습니다. 우리는 최소 분산 행동 정책의 교차 엔트로피 추정과 실제 정책 최적화를 번갈아 수행하는 반복 알고리즘을 제공합니다. 우리는 방어적 IS를 활용하여 그러한 알고리즘을 이론적으로 분석하며, 이 알고리즘이 정적 점으로의 수렴 속도가 O(⁻⁴) 차수에 해당하지만, 표준 PG 방법에 비해 더 편리한 분산 항에 의존한다는 것을 보여줍니다. 이후 정책 기울기 추정 분산 및 학습 속도에서의 장점을 보여주는 수치적으로 검증된 실용적인 버전을 제공합니다.
Papini 외 (목요일), 이 질문을 연구했습니다.