What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

Aprendizado por Reforço Robusto em Ação via Otimização de Políticas com Consciência de Adversário Ótimo

Key Points

A estrutura proposta melhora a robustez das ações contra perturbações adversariais em configurações de aprendizado por reforço.
Experimentos mostram que a integração do método em algoritmos de aprendizado por reforço profundo existentes resulta em melhor desempenho.
A iteração de política consciente de adversário ótimo é projetada para contrabalançar ações de adversários ótimos, aumentando a segurança da política.
A abordagem mantém desempenho nominal e eficiência amostral enquanto melhora a robustez em diversos ambientes.

Abstract

O Aprendizado por Reforço (RL) alcançou um sucesso notável em tarefas de decisão sequencial. No entanto, estudos recentes revelaram a vulnerabilidade das políticas de RL a diferentes perturbações, levantando preocupações sobre sua eficácia e segurança em aplicações do mundo real. Neste trabalho, focamos na robustez das políticas de RL contra perturbações de ação e introduzimos uma nova estrutura chamada Iteração de Política Consciente de Adversário Ótimo (OA-PI). Nossa estrutura aprimora a robustez da ação sob várias perturbações, avaliando e melhorando o desempenho da política em relação aos respectivos adversários ótimos. Além disso, nossa abordagem pode ser integrada em algoritmos DRL convencionais, como o DDPG Atrasado de Gêmeos (TD3) e a Otimização de Política Proximal (PPO), melhorando efetivamente a robustez da ação enquanto mantém desempenho nominal e eficiência amostral. Resultados experimentais em diversos ambientes demonstram que nosso método melhora a robustez das políticas DRL contra diferentes adversários de ação de forma eficaz.

Aprendizado por Reforço Robusto em Ação via Otimização de Políticas com Consciência de Adversário Ótimo

Key Points

Abstract

Cite This Study