March 24, 2024Open Access

향상된 오프라인 정책 최적화를 위한 완화된 정체 분포 보정 추정

Key Points

Key points are not available for this paper at this time.

Abstract

오프라인 강화 학습(RL)의 주요 과제 중 하나는 학습된 정책과 데이터 수집 정책 간의 불일치에서 비롯되는 분포 변화에 대처하는 것입니다. 정체 분포 보정 추정 알고리즘(DICE)은 데이터 수집 정책과 최적화된 정책의 상태-행동 방문 분포 간 f-발산을 사용하여 정책 최적화를 정규화함으로써 이 문제를 해결했습니다. 이러한 정규화는 최적 상태-행동 방문을 얻기 위한 목적 함수를 도출하는 데 자연스럽게 통합되지만, 암묵적 정책 최적화 프레임워크는 실제 성능이 제한적인 것으로 나타났습니다. 우리는 성능 저하가 편향된 추정치와 f-발산 정규화의 켤레 함수 특성 때문임을 관찰했습니다. 본 논문에서는 제약 조건을 완화하여 편향을 줄이고 켤레 함수를 재형성함으로써 정규화된 암묵적 정책 최적화 프레임워크를 개선합니다. 완화는 최적이 아닌 샘플들의 최적화 참여 정도를 조정하며, 우리는 이 완화된 프레임워크의 이점을 활용하여 이전 암묵적 정책 최적화 알고리즘 대비 크게 향상된 새로운 오프라인 RL 알고리즘을 도출합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Woosung Kim

Donghyeon Ki

Byung-Jun Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

향상된 오프라인 정책 최적화를 위한 완화된 정체 분포 보정 추정

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider