Key points are not available for this paper at this time.
A segurança é crítica ao aplicar aprendizado por reforço (RL) a problemas do mundo real. Como resultado, o RL seguro surgiu como um paradigma fundamental e poderoso para otimizar a política de um agente incorporando noções de segurança. Uma abordagem prevalente de RL seguro baseia-se em um critério restrito, que busca maximizar a recompensa cumulativa esperada sujeita a restrições específicas de segurança. Apesar dos esforços recentes para aprimorar a segurança no RL, uma compreensão sistemática do campo permanece difícil. Esse desafio decorre da diversidade das representações de restrições e da pouca exploração de suas inter-relações. Para preencher essa lacuna de conhecimento, apresentamos uma revisão abrangente das formulações representativas de restrições, juntamente com uma seleção cuidadosamente elaborada de algoritmos projetados especificamente para cada formulação. Além disso, elucidamos os fundamentos teóricos que revelam as relações matemáticas mútuas entre as formulações comuns dos problemas. Concluímos com uma discussão sobre o estado atual e as direções futuras da pesquisa em aprendizado por reforço seguro.
Building similarity graph...
Analyzing shared references across papers
Loading...
Akifumi Wachi
Xun Shen
Yanan Sui
Tsinghua University
The University of Osaka
Building similarity graph...
Analyzing shared references across papers
Loading...
Wachi et al. (Sex,) estudaram essa questão.
www.synapsesocial.com/papers/68e5ee87b6db643587583165 — DOI: https://doi.org/10.24963/ijcai.2024/913
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: