L'Apprentissage par Renforcement Hors Ligne (RL hors ligne) permet l'apprentissage de politiques à partir de données de trajectoires statiques sans interaction avec l'environnement, présentant des défis uniques pour l'apprentissage de représentations efficace et l'optimisation. Cette thèse examine les méthodes d'apprentissage supervisé pour le RL hors ligne, en se concentrant sur les approches de modélisation de séquences utilisant les architectures de transformeurs. Nous présentons plusieurs contributions clés qui font progresser à la fois la compréhension théorique et les performances empiriques dans ce domaine.Premièrement, nous proposons les Transformeurs de Décision Multi-Objectifs (MO-DT), qui optimisent conjointement la prédiction d'action, d'état et de retour pour encourager des motifs d'attention plus riches par rapport aux approches mono-tâche. Pour traiter la non-lissité des distributions d'actions, nous introduisons les Transformeurs de Décision à Région de Confiance (TRDT), qui augmentent les trajectoires avec des régions dans l'espace d'actions pour lisser les représentations et améliorer l'attention cross-modale. Deuxièmement, nous développons le Traducteur de Décision Guidé par Récompense (RGDT), une architecture encodeur-décodeur qui reformule le RL hors ligne comme une modélisation séquence-à-séquence, prédisant les états suivants plutôt que les actions tout en conditionnant directement sur les séquences de retours futurs.Nos contributions théoriques incluent un cadre complet basé sur l'analyse de flux de gradient modifiée qui révèle comment l'entraînement multi-tâche façonne fondamentalement les dynamiques d'optimisation. Nous prouvons que la descente de gradient encourage implicitement le désaccord entre tâches en minimisant les produits scalaires entre les gradients de tâches, l'entraînement multi-objectif introduisant une régularisation de premier ordre et l'entraînement séquentiel ajoutant des corrections de second ordre potentiellement nuisibles. De plus, nous établissons des bornes de complexité d'échantillonnage pour la modélisation de séquences en RL hors ligne, identifiant les transitions critiques entre les régimes de petites et grandes données et révélant les compromis entre l'ampleur de la couverture du contexte et la profondeur d'échantillonnage.Empiriquement, nos méthodes surpassent significativement les Transformeurs de Décision vanilla et égalent ou dépassent les références de l'état de l'art sur les benchmarks de locomotion D4RL. Nos prédictions théoriques prévoient avec précision les trajectoires d'optimisation et fournissent des principes actionnables pour concevoir des stratégies d'entraînement multi-tâche efficaces en RL hors ligne. Ensemble, ces contributions démontrent comment les approches d'apprentissage supervisé basées sur des principes peuvent efficacement aborder les défis de l'apprentissage à partir de données de trajectoires statiques.
Building similarity graph...
Analyzing shared references across papers
Loading...
Abdelghani Ghanem
Building similarity graph...
Analyzing shared references across papers
Loading...
Abdelghani Ghanem (Mon,) studied this question.