May 7, 2024

Multi-Objective Reinforcement Learning basierend auf nichtlinearer Skalierung und Lang-Kurzzeitoptimierung

Key Points

Key points are not available for this paper at this time.

Abstract

Zweck Viele praktische Steuerungsprobleme erfordern die Erreichung mehrerer Ziele, die häufig miteinander in Konflikt stehen. Die bestehenden multi-objektiven evolutionären Reinforcement-Learning-Algorithmen erzielen bei der Lösung solcher Probleme keine guten Suchergebnisse. Es ist notwendig, einen neuen multi-objektiven evolutionären Reinforcement-Learning-Algorithmus mit stärkerer Suchfähigkeit zu entwickeln. Design/Methodik/Ansatz Der in dieser Arbeit vorgeschlagene multi-objektive Reinforcement-Learning-Algorithmus basiert auf dem evolutionären Rechenrahmenwerk. In jeder Generation wird die Lang-Kurzzeit-Auswahlmethode verwendet, um Eltern-Policies auszuwählen. Die Langzeitauswahl basiert auf der Verbesserung der Policy entlang der vordefinierten Optimierungsrichtung in der vorherigen Generation. Die Kurzzeitauswahl nutzt ein Vorhersagemodell, um die Optimierungsrichtung vorherzusagen, die möglicherweise die größte Verbesserung der Gesamtleistung der Population bewirkt. In der evolutionären Phase wird die strafbasierte nichtlineare Skalierungsmethode angewandt, um die multidimensionalen Vorteil-Funktionen zu skalieren, und der nichtlineare multi-objektive Policy-Gradient wird entworfen, um die Eltern-Policies entlang der vordefinierten Richtungen zu optimieren. Ergebnisse Die strafbasierte nichtlineare Skalierungsmethode kann Policies dazu zwingen, sich entlang der vordefinierten Optimierungsrichtungen zu verbessern. Die Lang-Kurzzeit-Optimierungsmethode kann das Exploration-Exploitation-Problem abschwächen und ermöglicht es dem Algorithmus, unbekannte Bereiche zu erkunden, während sichergestellt wird, dass potenzielle Policies vollständig optimiert werden. Die Kombination dieser Konzepte kann die Leistung der finalen Population effektiv verbessern. Originalität/Wert Es wurde ein multi-objektiver evolutionärer Reinforcement-Learning-Algorithmus mit stärkerer Suchfähigkeit vorgeschlagen. Dieser Algorithmus kann eine Pareto-Policy-Menge mit besserer Konvergenz, Diversität und Dichte finden.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hongze Wang

Journals

Robotic Intelligence and Automation

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Multi-Objective Reinforcement Learning basierend auf nichtlinearer Skalierung und Lang-Kurzzeitoptimierung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider