May 2, 2024Open Access

LOQA: Lernen mit Bewusstsein für den Gegner-Q-Learning

Key Points

Key points are not available for this paper at this time.

Abstract

In verschiedenen realen Szenarien ähneln Interaktionen zwischen Agenten oft den Dynamiken von General-Sum-Spielen, bei denen jeder Agent bestrebt ist, seinen eigenen Nutzen zu optimieren. Trotz der allgegenwärtigen Relevanz solcher Settings hatten dezentralisierte maschinelle Lernalgorithmen Schwierigkeiten, Gleichgewichte zu finden, die individuellen Nutzen maximieren und gleichzeitig das soziale Wohlergehen erhalten. In diesem Papier stellen wir Learning with Opponent Q-Learning Awareness (LOQA) vor, einen neuartigen, dezentralisierten Reinforcement-Learning-Algorithmus, der darauf ausgelegt ist, den individuellen Nutzen eines Agenten zu optimieren und gleichzeitig die Kooperation unter Gegnern in teilweise kompetitiven Umgebungen zu fördern. LOQA nimmt an, dass der Gegner Aktionen proportional zu seiner Aktionswertfunktion Q auswählt. Experimentelle Ergebnisse zeigen die Effektivität von LOQA bei der Erreichung eines leistungsstarken Zustands in Benchmark-Szenarien wie dem Iterierten Gefangenendilemma und dem Coin Game. LOQA erzielt diese Ergebnisse bei deutlich reduzierter Rechenleistung, was es zu einem vielversprechenden Ansatz für praktische Multi-Agenten-Anwendungen macht.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Milad Aghajohari

Juan Agustin Duque

Tim Cooijmans

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LOQA: Lernen mit Bewusstsein für den Gegner-Q-Learning

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study