Key points are not available for this paper at this time.
안전 강화학습(RL)에서 안전 비용은 일반적으로 즉각적인 상태와 행동에 의존하는 함수로 정의됩니다. 실제로는 상태 표현의 불충분한 충실도로 인해 안전 제약이 비마르코프적일 수 있으며, 안전 비용이 알려지지 않은 경우도 있습니다. 따라서 우리는 상태-행동 궤적에 안전 레이블(예: 안전 또는 비안전)이 연관된 일반적인 상황을 다룹니다. 주요 기여는 다음과 같습니다: 첫째, 부분 상태-행동 궤적이 안전에 미치는 기여도를 평가하기 위해 신용 할당을 구체적으로 수행하는 안전 모델을 설계했습니다. 이 안전 모델은 레이블이 지정된 안전 데이터셋을 사용해 학습됩니다. 둘째, RL-추론 전략을 활용하여 학습된 안전 모델을 사용해 안전 정책을 최적화하는 효과적인 알고리즘을 도출했습니다. 마지막으로, 보상 극대화와 안전 준수 간의 균형 계수를 동적으로 조정하는 방법을 고안했습니다. 우리는 제약 최적화 문제를 이중 문제로 다시 작성하고, 훈련 중 균형 계수를 동적으로 조절하기 위한 기울기 기반 방법을 도출했습니다. 실험 결과, 본 접근법은 매우 확장 가능하며 복잡한 비마르코프 안전 제약도 만족시킬 수 있음을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Siow Meng Low
Akshat Kumar
Building similarity graph...
Analyzing shared references across papers
Loading...
Low 등(Sun,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e6b802b6db64358763956e — DOI: https://doi.org/10.48550/arxiv.2405.03005
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: