May 5, 2024Open Access

학습된 비마르코프 안전 제약을 통한 안전 강화학습

Key Points

Key points are not available for this paper at this time.

Abstract

안전 강화학습(RL)에서 안전 비용은 일반적으로 즉각적인 상태와 행동에 의존하는 함수로 정의됩니다. 실제로는 상태 표현의 불충분한 충실도로 인해 안전 제약이 비마르코프적일 수 있으며, 안전 비용이 알려지지 않은 경우도 있습니다. 따라서 우리는 상태-행동 궤적에 안전 레이블(예: 안전 또는 비안전)이 연관된 일반적인 상황을 다룹니다. 주요 기여는 다음과 같습니다: 첫째, 부분 상태-행동 궤적이 안전에 미치는 기여도를 평가하기 위해 신용 할당을 구체적으로 수행하는 안전 모델을 설계했습니다. 이 안전 모델은 레이블이 지정된 안전 데이터셋을 사용해 학습됩니다. 둘째, RL-추론 전략을 활용하여 학습된 안전 모델을 사용해 안전 정책을 최적화하는 효과적인 알고리즘을 도출했습니다. 마지막으로, 보상 극대화와 안전 준수 간의 균형 계수를 동적으로 조정하는 방법을 고안했습니다. 우리는 제약 최적화 문제를 이중 문제로 다시 작성하고, 훈련 중 균형 계수를 동적으로 조절하기 위한 기울기 기반 방법을 도출했습니다. 실험 결과, 본 접근법은 매우 확장 가능하며 복잡한 비마르코프 안전 제약도 만족시킬 수 있음을 보여줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Siow Meng Low

Akshat Kumar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

학습된 비마르코프 안전 제약을 통한 안전 강화학습

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider