Key points are not available for this paper at this time.
Algoritmos de aprendizado por reforço multiagente (MARL) frequentemente enfrentam dificuldades para encontrar estratégias próximas ao Equilíbrio de Nash de Pareto ótimo, devido em grande parte à falta de exploração eficiente. O problema se agrava em ambientes com recompensas escassas, causado pela maior variância exibida no aprendizado de políticas. Este artigo apresenta MESA, um método inovador de meta-exploração para aprendizado cooperativo multiagente. Ele aprende a explorar identificando primeiramente o subespaço conjunto de estado-ação de alta recompensa dos agentes a partir de tarefas de treinamento e, em seguida, aprendendo um conjunto de políticas de exploração diversas para "cobrir" esse subespaço. Essas políticas de exploração treinadas podem ser integradas a qualquer algoritmo MARL off-policy para tarefas em tempo de teste. Demonstramos inicialmente a vantagem do MESA em um jogo matricial de múltiplas etapas. Além disso, experimentos mostram que, com políticas de exploração aprendidas, o MESA alcança desempenho significativamente melhor em tarefas com recompensas escassas em vários ambientes de partículas multiagentes e ambientes multiagentes MuJoCo, exibindo também a capacidade de generalizar para tarefas mais desafiadoras no tempo de teste.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhicheng Zhang
Yancheng Liang
Yi Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e6c5cfb6db6435876441eb — DOI: https://doi.org/10.48550/arxiv.2405.00902
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: