July 26, 2024Open Access

Um Levantamento das Formulações de Restrições em Aprendizado por Reforço Seguro

Key Points

Key points are not available for this paper at this time.

Abstract

A segurança é crítica ao aplicar aprendizado por reforço (RL) a problemas do mundo real. Como resultado, o RL seguro surgiu como um paradigma fundamental e poderoso para otimizar a política de um agente incorporando noções de segurança. Uma abordagem prevalente de RL seguro baseia-se em um critério restrito, que busca maximizar a recompensa cumulativa esperada sujeita a restrições específicas de segurança. Apesar dos esforços recentes para aprimorar a segurança no RL, uma compreensão sistemática do campo permanece difícil. Esse desafio decorre da diversidade das representações de restrições e da pouca exploração de suas inter-relações. Para preencher essa lacuna de conhecimento, apresentamos uma revisão abrangente das formulações representativas de restrições, juntamente com uma seleção cuidadosamente elaborada de algoritmos projetados especificamente para cada formulação. Além disso, elucidamos os fundamentos teóricos que revelam as relações matemáticas mútuas entre as formulações comuns dos problemas. Concluímos com uma discussão sobre o estado atual e as direções futuras da pesquisa em aprendizado por reforço seguro.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Akifumi Wachi

Xun Shen

Yanan Sui

Actions

Institutions

Tsinghua University

The University of Osaka

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Um Levantamento das Formulações de Restrições em Aprendizado por Reforço Seguro

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider