O Aprendizado por Reforço (RL) alcançou um sucesso notável em tarefas de decisão sequencial. No entanto, estudos recentes revelaram a vulnerabilidade das políticas de RL a diferentes perturbações, levantando preocupações sobre sua eficácia e segurança em aplicações do mundo real. Neste trabalho, focamos na robustez das políticas de RL contra perturbações de ação e introduzimos uma nova estrutura chamada Iteração de Política Consciente de Adversário Ótimo (OA-PI). Nossa estrutura aprimora a robustez da ação sob várias perturbações, avaliando e melhorando o desempenho da política em relação aos respectivos adversários ótimos. Além disso, nossa abordagem pode ser integrada em algoritmos DRL convencionais, como o DDPG Atrasado de Gêmeos (TD3) e a Otimização de Política Proximal (PPO), melhorando efetivamente a robustez da ação enquanto mantém desempenho nominal e eficiência amostral. Resultados experimentais em diversos ambientes demonstram que nosso método melhora a robustez das políticas DRL contra diferentes adversários de ação de forma eficaz.
Nie et al. (Sex,) estudaram essa questão.