Key points are not available for this paper at this time.
많은 실제 환경에서 에이전트는 이전 행동 정책에 의해 수집된 오프라인 데이터셋에서 학습해야 합니다. 이러한 환경은 자연스럽게 행동 정책과 훈련 중인 목표 정책 간의 분포 변화로 이어지며, 이는 불안정성과 과대평가 편향을 피하기 위해 정책 보수성을 요구합니다. 자기회귀적 세계 모델은 합성된 온-정책 경험을 생성함으로써 이 문제에 대한 다른 해결책을 제공합니다. 하지만 실제로는 연속 롤아웃 시 누적 오류를 방지하기 위해 모델 롤아웃을 심각하게 제한해야 합니다. 대안으로, 우리는 정책 기반 확산을 제안합니다. 본 방법은 확산 모델을 이용해 행동 분포 하에서 전체 궤적을 생성하며, 목표 정책의 지침을 적용하여 합성 경험을 더욱 온-정책에 가깝게 만듭니다. 우리는 정책 기반 확산 모델이 목표 분포의 규제된 형태를 모델링하여 목표 정책과 행동 정책 모두 아래에서의 행동 가능성을 균형 있게 유지함으로써, 높은 목표 정책 확률을 가진 그럴듯한 궤적을 생성하며 오프라인 세계 모델 기준선보다 낮은 동역학 오류를 유지함을 보였습니다. 정책 기반 확산에서 생성된 합성 경험을 실제 데이터 대신 사용함으로써 다양한 표준 오프라인 강화 학습 알고리즘 및 환경에서 성능이 크게 향상됨을 입증했습니다. 본 접근법은 자기회귀적 오프라인 세계 모델에 효과적인 대안을 제공하며, 합성 훈련 데이터의 제어 가능한 생성을 가능하게 합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Matthew Thomas Jackson
Michael Matthews
Cong Lu
Building similarity graph...
Analyzing shared references across papers
Loading...
Jackson 등(화요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e6febab6db643587678f4e — DOI: https://doi.org/10.48550/arxiv.2404.06356
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: