Key points are not available for this paper at this time.
Zweck Viele praktische Steuerungsprobleme erfordern die Erreichung mehrerer Ziele, die häufig miteinander in Konflikt stehen. Die bestehenden multi-objektiven evolutionären Reinforcement-Learning-Algorithmen erzielen bei der Lösung solcher Probleme keine guten Suchergebnisse. Es ist notwendig, einen neuen multi-objektiven evolutionären Reinforcement-Learning-Algorithmus mit stärkerer Suchfähigkeit zu entwickeln. Design/Methodik/Ansatz Der in dieser Arbeit vorgeschlagene multi-objektive Reinforcement-Learning-Algorithmus basiert auf dem evolutionären Rechenrahmenwerk. In jeder Generation wird die Lang-Kurzzeit-Auswahlmethode verwendet, um Eltern-Policies auszuwählen. Die Langzeitauswahl basiert auf der Verbesserung der Policy entlang der vordefinierten Optimierungsrichtung in der vorherigen Generation. Die Kurzzeitauswahl nutzt ein Vorhersagemodell, um die Optimierungsrichtung vorherzusagen, die möglicherweise die größte Verbesserung der Gesamtleistung der Population bewirkt. In der evolutionären Phase wird die strafbasierte nichtlineare Skalierungsmethode angewandt, um die multidimensionalen Vorteil-Funktionen zu skalieren, und der nichtlineare multi-objektive Policy-Gradient wird entworfen, um die Eltern-Policies entlang der vordefinierten Richtungen zu optimieren. Ergebnisse Die strafbasierte nichtlineare Skalierungsmethode kann Policies dazu zwingen, sich entlang der vordefinierten Optimierungsrichtungen zu verbessern. Die Lang-Kurzzeit-Optimierungsmethode kann das Exploration-Exploitation-Problem abschwächen und ermöglicht es dem Algorithmus, unbekannte Bereiche zu erkunden, während sichergestellt wird, dass potenzielle Policies vollständig optimiert werden. Die Kombination dieser Konzepte kann die Leistung der finalen Population effektiv verbessern. Originalität/Wert Es wurde ein multi-objektiver evolutionärer Reinforcement-Learning-Algorithmus mit stärkerer Suchfähigkeit vorgeschlagen. Dieser Algorithmus kann eine Pareto-Policy-Menge mit besserer Konvergenz, Diversität und Dichte finden.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongze Wang
Robotic Intelligence and Automation
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongze Wang (Tue,) hat diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e6b3a7b6db6435876348a3 — DOI: https://doi.org/10.1108/ria-11-2023-0174
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: