March 21, 2024Open Access

Destillierung von Verstärkungslern-Politiken für interpretierbare Roboter-Lokomotion: Gradient Boosting Machines und symbolische Regression

Key Points

Key points are not available for this paper at this time.

Abstract

Jüngste Fortschritte im Verstärkungslernen (RL) haben zu bemerkenswerten Erfolgen bei den Lokomotionsfähigkeiten von Robotern geführt. Die Komplexität und die „Black-Box“-Natur von auf neuronalen Netzen basierenden RL-Politiken erschweren jedoch deren Interpretierbarkeit und breitere Akzeptanz, insbesondere in Anwendungen, die hohe Sicherheits- und Zuverlässigkeitsanforderungen stellen. Dieses Papier stellt einen neuartigen Ansatz vor, um neuronale RL-Politiken mithilfe von Gradient Boosting Machines (GBMs), Explainable Boosting Machines (EBMs) und symbolischer Regression in interpretierbarere Formen zu destillieren. Durch die Nutzung der inhärenten Interpretierbarkeit generalisierter additiver Modelle, Entscheidungsbäumen und analytischer Ausdrücke wandeln wir undurchsichtige neuronale Netz-Politiken in transparentere „Glas-Box“-Modelle um. Wir trainieren Experten-Politiken mit neuronalen Netzen mittels RL und destillieren sie anschließend in (i) GBMs, (ii) EBMs und (iii) symbolische Politiken. Um die inhärente Verteilungsverschiebung beim Behavioral Cloning zu adressieren, schlagen wir vor, den Dataset Aggregation (DAgger)-Algorithmus mit einem Lehrplan aus episodabhängiger alternierender Aktion zwischen Experten- und destillierten Politiken einzusetzen, um eine effiziente Destillierung von Feedback-Kontrollpolitiken zu ermöglichen. Wir evaluieren unseren Ansatz auf verschiedenen Robotik-Bewegungsarten – Gehen, Traben, Springen und Pacing – und untersuchen die Bedeutung unterschiedlicher Beobachtungen in den gemeinschaftlichen Aktionen der destillierten Politiken mittels verschiedener Methoden. Wir trainieren neuronale Experten-Politiken für 205 Stunden simulierten Erlebnisses und destillieren interpretierbare Politiken mit nur 10 Minuten simulierten Interaktionen pro Gangart mit der vorgeschlagenen Methode.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fernando Acero

Zhibin Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Destillierung von Verstärkungslern-Politiken für interpretierbare Roboter-Lokomotion: Gradient Boosting Machines und symbolische Regression

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider