Key points are not available for this paper at this time.
오프라인 강화 학습(RL)의 주요 과제 중 하나는 학습된 정책과 데이터 수집 정책 간의 불일치에서 비롯되는 분포 변화에 대처하는 것입니다. 정체 분포 보정 추정 알고리즘(DICE)은 데이터 수집 정책과 최적화된 정책의 상태-행동 방문 분포 간 f-발산을 사용하여 정책 최적화를 정규화함으로써 이 문제를 해결했습니다. 이러한 정규화는 최적 상태-행동 방문을 얻기 위한 목적 함수를 도출하는 데 자연스럽게 통합되지만, 암묵적 정책 최적화 프레임워크는 실제 성능이 제한적인 것으로 나타났습니다. 우리는 성능 저하가 편향된 추정치와 f-발산 정규화의 켤레 함수 특성 때문임을 관찰했습니다. 본 논문에서는 제약 조건을 완화하여 편향을 줄이고 켤레 함수를 재형성함으로써 정규화된 암묵적 정책 최적화 프레임워크를 개선합니다. 완화는 최적이 아닌 샘플들의 최적화 참여 정도를 조정하며, 우리는 이 완화된 프레임워크의 이점을 활용하여 이전 암묵적 정책 최적화 알고리즘 대비 크게 향상된 새로운 오프라인 RL 알고리즘을 도출합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Woosung Kim
Donghyeon Ki
Byung-Jun Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
Kim 등(Sun,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e7296db6db6435876a39fd — DOI: https://doi.org/10.1609/aaai.v38i12.29218
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: