Key points are not available for this paper at this time.
L'évaluation des algorithmes d'apprentissage par renforcement multiagent profond (MARL) est compliquée par la stochasticité de l'entraînement et la sensibilité des performances des agents au comportement des autres agents. Nous proposons un cadre d'évaluation méta-jeu pour le MARL profond, en considérant chaque algorithme MARL comme une méta-stratégie, et en échantillonnant de manière répétée des jeux empiriques en forme normale sur des combinaisons de méta-stratégies résultant de différentes graines aléatoires. Chaque jeu empirique capture à la fois les facteurs d'auto-jeu et de jeu croisé entre les graines. Ces jeux empiriques fournissent la base pour la construction d'une distribution d'échantillonnage, utilisant le bootstrap, sur une variété de statistiques d'analyse de jeu. Nous utilisons cette approche pour évaluer les algorithmes MARL profonds à la pointe de la technologie sur une classe de jeux de négociation. À partir des statistiques sur les gains individuels, le bien-être social et les graphes de meilleure réponse empirique, nous découvrons des relations stratégiques entre les méthodes MARL d'auto-jeu, basées sur la population, sans modèle, et avec modèle. Nous étudions également l'effet de la recherche en temps réel comme opérateur de méta-stratégie, et constatons via l'analyse méta-jeu que la version avec recherche d'une méta-stratégie conduit généralement à une amélioration des performances.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zun Li
Michael P. Wellman
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (mar.,) ont étudié cette question.
www.synapsesocial.com/papers/68e6cdf2b6db64358764be9a — DOI: https://doi.org/10.48550/arxiv.2405.00243
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: