May 23, 2024Open Access

MuDreamer : Apprentissage de modèles prédictifs du monde sans reconstruction

Key Points

Key points are not available for this paper at this time.

Abstract

L'agent DreamerV3 a récemment démontré une performance de pointe dans divers domaines, en apprenant de puissants modèles du monde dans un espace latent à l'aide d'une perte de reconstruction pixel par pixel. Cependant, bien que la perte de reconstruction soit essentielle à la performance de Dreamer, elle nécessite également la modélisation d'informations inutiles. Par conséquent, Dreamer échoue parfois à percevoir des éléments cruciaux nécessaires à la résolution de tâches lorsqu'il y a des distractions visuelles dans l'observation, ce qui limite considérablement son potentiel. Dans cet article, nous présentons MuDreamer, un agent d'apprentissage par renforcement robuste qui s'appuie sur l'algorithme DreamerV3 en apprenant un modèle prédictif du monde sans avoir besoin de reconstruire les signaux d'entrée. Plutôt que de s'appuyer sur la reconstruction pixel par pixel, des représentations cachées sont apprises en prédisant la fonction de valeur de l'environnement et les actions précédemment sélectionnées. Similaire aux méthodes auto-supervisées prédictives pour les images, nous constatons que l'utilisation de la normalisation par lots est cruciale pour prévenir l'effondrement de l'apprentissage. Nous étudions également l'effet de l'équilibrage KL entre les pertes du postérieur et du prior du modèle sur la vitesse de convergence et la stabilité de l'apprentissage. Nous évaluons MuDreamer sur la suite de contrôle visuel DeepMind couramment utilisée et démontrons une robustesse supérieure aux distractions visuelles comparée à DreamerV3 et à d'autres approches sans reconstruction, en remplaçant l'arrière-plan de l'environnement par des vidéos du monde réel non pertinentes pour la tâche. Notre méthode atteint également des performances comparables sur la base de référence Atari100k tout en bénéficiant d'un entraînement plus rapide.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Maxime Burchi

Radu Timofte

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MuDreamer : Apprentissage de modèles prédictifs du monde sans reconstruction

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider