Key points are not available for this paper at this time.
확산과 같은 생성 모델은 오프라인 강화 학습에서 세계 모델로 활용되어 보다 효율적인 학습을 위한 합성 데이터를 생성하는 데 사용되어 왔다. 기존 연구는 확산 모델을 학습 전 한 번만 생성하거나 이를 업데이트하기 위해 추가 상호작용 데이터를 필요로 한다. 본 논문에서는 폐쇄 루프 정책 평가 및 세계 모델 적응을 포함하는 오프라인 강화 학습을 위한 새로운 접근법을 제안한다. 이 방법은 가이드된 확산 세계 모델을 반복적으로 활용하여 그로부터 도출된 행동으로 오프라인 대상 정책을 직접 평가하고, 이후 중요도 샘플링 기반 세계 모델 업데이트를 수행하여 업데이트된 정책과 세계 모델을 적응적으로 정렬한다. 제안된 방법의 성능을 분석하고 최적 정책 하에서 본 방법과 실제 환경 간의 수익 격차에 대한 상한을 제공하였다. 그 결과는 학습 성능에 영향을 미치는 다양한 요인을 조명한다. D4RL 환경에서의 평가 결과, 특히 무작위 또는 중간 전문가 시연만 이용 가능할 때 세계 모델과 오프라인 정책 평가 간 정렬 개선이 필요한 상황에서, 최신 기법 대비 유의미한 향상을 보였다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zeyu Fang
Tian Lan
Building similarity graph...
Analyzing shared references across papers
Loading...
Fang 등(목요일,)이 이 문제를 연구하였다.
www.synapsesocial.com/papers/68e67bb1b6db643587605fc4 — DOI: https://doi.org/10.48550/arxiv.2405.19878
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: