Key points are not available for this paper at this time.
안전 강화 학습(Safe RL)은 시행착오 과정에서 의사 결정 및 탐색 중 RL 알고리즘이 제약 조건을 위반하지 않도록 하는 기법들의 한 종류를 의미합니다. 본 논문에서는 정책이 최적성과 안전성을 동시에 향상하도록 다목적 정책 최적화 프레임워크를 기반으로 형식화된 새로운 모델 프리 안전 강화 학습 알고리즘을 제시합니다. 최적성은 이후 안전 평가기(safety critic)를 사용하여 형성된 환경 보상 함수에 의해 달성됩니다. SORL(Safety Optimized RL) 알고리즘의 기존 안전 강화 학습 알고리즘 대비 장점은 정책 탐색 공간을 제약할 필요가 없다는 점입니다. 이를 통해 SORL은 엄격한 탐색 공간 제약으로 인해 안전성 또는 최적성 측면에서 성능 저하 없이 안전성과 최적성 사이의 자연스러운 균형을 찾을 수 있습니다. SORL에 대한 이론적 분석을 통해, 본 논문에서는 수렴된 정책의 안전성을 보장하는 조건을 제시하고, 이를 활용해 언급된 균형을 세밀하게 조절할 수 있는 공격성 매개변수를 도입합니다. 일곱 개의 서로 다른 로봇 환경에서 얻은 실험 결과는 여섯 가지 최첨단 안전 강화 학습 기법들과 비교하여 안전 위반 수가 상당히 감소하고 정책 수익은 더 높거나 경쟁적인 수준임을 보여줍니다. 결과는 안전이 중요한 응용 분야에서 제안된 SORL 알고리즘의 현저한 우수성을 입증합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Homayoun Honari
Mehran Ghafarian Tamizi
Homayoun Najjaran
Building similarity graph...
Analyzing shared references across papers
Loading...
Honari 등(Fri,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e77e09b6db6435876f22ca — DOI: https://doi.org/10.1109/icra57147.2024.10611316
Synapse has enriched one closely related paper. Consider it for comparative context: