Key points are not available for this paper at this time.
Tarefas de aprendizado por reforço seguro com múltiplas restrições são um domínio desafiador apesar de serem muito comuns no mundo real. Para enfrentar esse desafio, propomos a Supressão de Objetivos, um método inovador que suprime adaptativamente os objetivos de maximização da recompensa da tarefa de acordo com um crítico de segurança. Testamos a Supressão de Objetivos em dois domínios de segurança multi-restrição, incluindo um domínio de direção autônoma onde qualquer comportamento incorreto pode levar a consequências desastrosas. Empiricamente, demonstramos que nosso método proposto, quando combinado com algoritmos existentes de RL seguro, pode igualar a recompensa da tarefa alcançada por nossos métodos de referência com significativamente menos violações das restrições.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zihan Zhou
Jonathan Booher
Wei Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (Sex,) estudaram esta questão.
www.synapsesocial.com/papers/68e77f50b6db6435876f2f1d — DOI: https://doi.org/10.48550/arxiv.2402.15650
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: