May 30, 2024Open Access

무작위 시연에서 배우기: 중요도 샘플링 확산 모델을 활용한 오프라인 강화 학습

Key Points

Key points are not available for this paper at this time.

Abstract

확산과 같은 생성 모델은 오프라인 강화 학습에서 세계 모델로 활용되어 보다 효율적인 학습을 위한 합성 데이터를 생성하는 데 사용되어 왔다. 기존 연구는 확산 모델을 학습 전 한 번만 생성하거나 이를 업데이트하기 위해 추가 상호작용 데이터를 필요로 한다. 본 논문에서는 폐쇄 루프 정책 평가 및 세계 모델 적응을 포함하는 오프라인 강화 학습을 위한 새로운 접근법을 제안한다. 이 방법은 가이드된 확산 세계 모델을 반복적으로 활용하여 그로부터 도출된 행동으로 오프라인 대상 정책을 직접 평가하고, 이후 중요도 샘플링 기반 세계 모델 업데이트를 수행하여 업데이트된 정책과 세계 모델을 적응적으로 정렬한다. 제안된 방법의 성능을 분석하고 최적 정책 하에서 본 방법과 실제 환경 간의 수익 격차에 대한 상한을 제공하였다. 그 결과는 학습 성능에 영향을 미치는 다양한 요인을 조명한다. D4RL 환경에서의 평가 결과, 특히 무작위 또는 중간 전문가 시연만 이용 가능할 때 세계 모델과 오프라인 정책 평가 간 정렬 개선이 필요한 상황에서, 최신 기법 대비 유의미한 향상을 보였다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zeyu Fang

Tian Lan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

무작위 시연에서 배우기: 중요도 샘플링 확산 모델을 활용한 오프라인 강화 학습

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider