Key points are not available for this paper at this time.
L'agent DreamerV3 a récemment démontré une performance de pointe dans divers domaines, en apprenant de puissants modèles du monde dans un espace latent à l'aide d'une perte de reconstruction pixel par pixel. Cependant, bien que la perte de reconstruction soit essentielle à la performance de Dreamer, elle nécessite également la modélisation d'informations inutiles. Par conséquent, Dreamer échoue parfois à percevoir des éléments cruciaux nécessaires à la résolution de tâches lorsqu'il y a des distractions visuelles dans l'observation, ce qui limite considérablement son potentiel. Dans cet article, nous présentons MuDreamer, un agent d'apprentissage par renforcement robuste qui s'appuie sur l'algorithme DreamerV3 en apprenant un modèle prédictif du monde sans avoir besoin de reconstruire les signaux d'entrée. Plutôt que de s'appuyer sur la reconstruction pixel par pixel, des représentations cachées sont apprises en prédisant la fonction de valeur de l'environnement et les actions précédemment sélectionnées. Similaire aux méthodes auto-supervisées prédictives pour les images, nous constatons que l'utilisation de la normalisation par lots est cruciale pour prévenir l'effondrement de l'apprentissage. Nous étudions également l'effet de l'équilibrage KL entre les pertes du postérieur et du prior du modèle sur la vitesse de convergence et la stabilité de l'apprentissage. Nous évaluons MuDreamer sur la suite de contrôle visuel DeepMind couramment utilisée et démontrons une robustesse supérieure aux distractions visuelles comparée à DreamerV3 et à d'autres approches sans reconstruction, en remplaçant l'arrière-plan de l'environnement par des vidéos du monde réel non pertinentes pour la tâche. Notre méthode atteint également des performances comparables sur la base de référence Atari100k tout en bénéficiant d'un entraînement plus rapide.
Building similarity graph...
Analyzing shared references across papers
Loading...
Maxime Burchi
Radu Timofte
Building similarity graph...
Analyzing shared references across papers
Loading...
Burchi et al. (jeu,) ont étudié cette question.
www.synapsesocial.com/papers/68e68d03b6db643587614edb — DOI: https://doi.org/10.48550/arxiv.2405.15083
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: