May 1, 2024Open Access

MESA: Meta-Exploração Cooperativa em Aprendizagem Multiagente por meio da Exploração da Estrutura do Espaço Estado-Ação

Key Points

Key points are not available for this paper at this time.

Abstract

Algoritmos de aprendizado por reforço multiagente (MARL) frequentemente enfrentam dificuldades para encontrar estratégias próximas ao Equilíbrio de Nash de Pareto ótimo, devido em grande parte à falta de exploração eficiente. O problema se agrava em ambientes com recompensas escassas, causado pela maior variância exibida no aprendizado de políticas. Este artigo apresenta MESA, um método inovador de meta-exploração para aprendizado cooperativo multiagente. Ele aprende a explorar identificando primeiramente o subespaço conjunto de estado-ação de alta recompensa dos agentes a partir de tarefas de treinamento e, em seguida, aprendendo um conjunto de políticas de exploração diversas para "cobrir" esse subespaço. Essas políticas de exploração treinadas podem ser integradas a qualquer algoritmo MARL off-policy para tarefas em tempo de teste. Demonstramos inicialmente a vantagem do MESA em um jogo matricial de múltiplas etapas. Além disso, experimentos mostram que, com políticas de exploração aprendidas, o MESA alcança desempenho significativamente melhor em tarefas com recompensas escassas em vários ambientes de partículas multiagentes e ambientes multiagentes MuJoCo, exibindo também a capacidade de generalizar para tarefas mais desafiadoras no tempo de teste.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhicheng Zhang

Yancheng Liang

Yi Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MESA: Meta-Exploração Cooperativa em Aprendizagem Multiagente por meio da Exploração da Estrutura do Espaço Estado-Ação

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider