Key points are not available for this paper at this time.
Jüngste Fortschritte im Verstärkungslernen (RL) haben zu bemerkenswerten Erfolgen bei den Lokomotionsfähigkeiten von Robotern geführt. Die Komplexität und die „Black-Box“-Natur von auf neuronalen Netzen basierenden RL-Politiken erschweren jedoch deren Interpretierbarkeit und breitere Akzeptanz, insbesondere in Anwendungen, die hohe Sicherheits- und Zuverlässigkeitsanforderungen stellen. Dieses Papier stellt einen neuartigen Ansatz vor, um neuronale RL-Politiken mithilfe von Gradient Boosting Machines (GBMs), Explainable Boosting Machines (EBMs) und symbolischer Regression in interpretierbarere Formen zu destillieren. Durch die Nutzung der inhärenten Interpretierbarkeit generalisierter additiver Modelle, Entscheidungsbäumen und analytischer Ausdrücke wandeln wir undurchsichtige neuronale Netz-Politiken in transparentere „Glas-Box“-Modelle um. Wir trainieren Experten-Politiken mit neuronalen Netzen mittels RL und destillieren sie anschließend in (i) GBMs, (ii) EBMs und (iii) symbolische Politiken. Um die inhärente Verteilungsverschiebung beim Behavioral Cloning zu adressieren, schlagen wir vor, den Dataset Aggregation (DAgger)-Algorithmus mit einem Lehrplan aus episodabhängiger alternierender Aktion zwischen Experten- und destillierten Politiken einzusetzen, um eine effiziente Destillierung von Feedback-Kontrollpolitiken zu ermöglichen. Wir evaluieren unseren Ansatz auf verschiedenen Robotik-Bewegungsarten – Gehen, Traben, Springen und Pacing – und untersuchen die Bedeutung unterschiedlicher Beobachtungen in den gemeinschaftlichen Aktionen der destillierten Politiken mittels verschiedener Methoden. Wir trainieren neuronale Experten-Politiken für 205 Stunden simulierten Erlebnisses und destillieren interpretierbare Politiken mit nur 10 Minuten simulierten Interaktionen pro Gangart mit der vorgeschlagenen Methode.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fernando Acero
Zhibin Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Acero et al. (Do,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e73191b6db6435876ab48d — DOI: https://doi.org/10.48550/arxiv.2403.14328
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: