Key points are not available for this paper at this time.
In verschiedenen realen Szenarien ähneln Interaktionen zwischen Agenten oft den Dynamiken von General-Sum-Spielen, bei denen jeder Agent bestrebt ist, seinen eigenen Nutzen zu optimieren. Trotz der allgegenwärtigen Relevanz solcher Settings hatten dezentralisierte maschinelle Lernalgorithmen Schwierigkeiten, Gleichgewichte zu finden, die individuellen Nutzen maximieren und gleichzeitig das soziale Wohlergehen erhalten. In diesem Papier stellen wir Learning with Opponent Q-Learning Awareness (LOQA) vor, einen neuartigen, dezentralisierten Reinforcement-Learning-Algorithmus, der darauf ausgelegt ist, den individuellen Nutzen eines Agenten zu optimieren und gleichzeitig die Kooperation unter Gegnern in teilweise kompetitiven Umgebungen zu fördern. LOQA nimmt an, dass der Gegner Aktionen proportional zu seiner Aktionswertfunktion Q auswählt. Experimentelle Ergebnisse zeigen die Effektivität von LOQA bei der Erreichung eines leistungsstarken Zustands in Benchmark-Szenarien wie dem Iterierten Gefangenendilemma und dem Coin Game. LOQA erzielt diese Ergebnisse bei deutlich reduzierter Rechenleistung, was es zu einem vielversprechenden Ansatz für praktische Multi-Agenten-Anwendungen macht.
Building similarity graph...
Analyzing shared references across papers
Loading...
Milad Aghajohari
Juan Agustin Duque
Tim Cooijmans
Building similarity graph...
Analyzing shared references across papers
Loading...
Aghajohari et al. (Do,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e6beabb6db64358763edf3 — DOI: https://doi.org/10.48550/arxiv.2405.01035