February 23, 2024Open Access

Sicherheitsoptimiertes Reinforcement Learning durch Multiobjektive Policy-Optimierung

Key Points

Key points are not available for this paper at this time.

Abstract

Sicheres Reinforcement Learning (Safe RL) bezeichnet eine Klasse von Techniken, die darauf abzielen, RL-Algorithmen daran zu hindern, während der Entscheidungsfindung und Erkundung im Prozess von Versuch und Irrtum Einschränkungen zu verletzen. In diesem Papier wird ein neuartiger modellfreier Safe RL-Algorithmus vorgestellt, der auf dem Rahmenwerk der multiobjektiven Policy-Optimierung formuliert ist, wobei die Policy gleichzeitig auf Optimalität und Sicherheit optimiert wird. Die Optimalität wird durch die Belohnungsfunktion der Umgebung erreicht, die anschließend mithilfe eines Sicherheitskritikers geformt wird. Der Vorteil des Safety Optimized RL (SORL)-Algorithmus im Vergleich zu herkömmlichen Safe RL-Algorithmen besteht darin, dass die Einschränkung des Policy-Suchraums entfällt. Dies erlaubt es SORL, einen natürlichen Kompromiss zwischen Sicherheit und Optimalität zu finden, ohne die Leistung in Bezug auf Sicherheit oder Optimalität aufgrund strenger Suchraumbeschränkungen zu beeinträchtigen. Durch unsere theoretische Analyse von SORL schlagen wir eine Bedingung für die konvergierte Policy von SORL vor, die Sicherheit garantiert, und nutzen diese, um einen Aggressivitätsparameter einzuführen, der eine Feinabstimmung des genannten Kompromisses ermöglicht. Die experimentellen Ergebnisse in sieben verschiedenen robotischen Umgebungen zeigen eine erhebliche Reduktion der Anzahl von Sicherheitsverletzungen bei zugleich höheren oder wettbewerbsfähigen Policy-Renditen im Vergleich zu sechs verschiedenen hochmodernen Safe RL-Methoden. Die Ergebnisse demonstrieren die bedeutende Überlegenheit des vorgeschlagenen SORL-Algorithmus in sicherheitskritischen Anwendungen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Homayoun Honari

Mehran Ghafarian Tamizi

Homayoun Najjaran

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Sicherheitsoptimiertes Reinforcement Learning durch Multiobjektive Policy-Optimierung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider