Key points are not available for this paper at this time.
Sicheres Reinforcement Learning (Safe RL) bezeichnet eine Klasse von Techniken, die darauf abzielen, RL-Algorithmen daran zu hindern, während der Entscheidungsfindung und Erkundung im Prozess von Versuch und Irrtum Einschränkungen zu verletzen. In diesem Papier wird ein neuartiger modellfreier Safe RL-Algorithmus vorgestellt, der auf dem Rahmenwerk der multiobjektiven Policy-Optimierung formuliert ist, wobei die Policy gleichzeitig auf Optimalität und Sicherheit optimiert wird. Die Optimalität wird durch die Belohnungsfunktion der Umgebung erreicht, die anschließend mithilfe eines Sicherheitskritikers geformt wird. Der Vorteil des Safety Optimized RL (SORL)-Algorithmus im Vergleich zu herkömmlichen Safe RL-Algorithmen besteht darin, dass die Einschränkung des Policy-Suchraums entfällt. Dies erlaubt es SORL, einen natürlichen Kompromiss zwischen Sicherheit und Optimalität zu finden, ohne die Leistung in Bezug auf Sicherheit oder Optimalität aufgrund strenger Suchraumbeschränkungen zu beeinträchtigen. Durch unsere theoretische Analyse von SORL schlagen wir eine Bedingung für die konvergierte Policy von SORL vor, die Sicherheit garantiert, und nutzen diese, um einen Aggressivitätsparameter einzuführen, der eine Feinabstimmung des genannten Kompromisses ermöglicht. Die experimentellen Ergebnisse in sieben verschiedenen robotischen Umgebungen zeigen eine erhebliche Reduktion der Anzahl von Sicherheitsverletzungen bei zugleich höheren oder wettbewerbsfähigen Policy-Renditen im Vergleich zu sechs verschiedenen hochmodernen Safe RL-Methoden. Die Ergebnisse demonstrieren die bedeutende Überlegenheit des vorgeschlagenen SORL-Algorithmus in sicherheitskritischen Anwendungen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Homayoun Honari
Mehran Ghafarian Tamizi
Homayoun Najjaran
Building similarity graph...
Analyzing shared references across papers
Loading...
Honari et al. (Fri,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e77e09b6db6435876f22ca — DOI: https://doi.org/10.1109/icra57147.2024.10611316
Synapse has enriched one closely related paper. Consider it for comparative context: