June 25, 2024Open Access

Modèles fondamentaux multimodaux du monde pour agents incarnés généralistes

Key Points

Key points are not available for this paper at this time.

Abstract

Apprendre à des agents incarnés généralistes, capables de résoudre une multitude de tâches dans différents domaines, est un problème de longue date. L'apprentissage par renforcement (RL) est difficile à monter en échelle car il nécessite une conception complexe de la récompense pour chaque tâche. En revanche, le langage peut spécifier les tâches de manière plus naturelle. Les modèles fondamentaux actuels vision-langage (VLM) nécessitent généralement un ajustement fin ou d'autres adaptations pour être fonctionnels, en raison du fossé important entre les domaines. Cependant, le manque de données multimodales dans ces domaines représente un obstacle au développement de modèles fondamentaux pour les applications incarnées. Dans ce travail, nous surmontons ces problèmes en présentant des modèles fondamentaux multimodaux du monde, capables de connecter et d’aligner la représentation des VLM fondamentaux avec l’espace latent des modèles génératifs du monde pour la RL, sans aucune annotation linguistique. Le cadre d’apprentissage agent résultant, GenRL, permet de spécifier les tâches par des invites visuelles et/ou linguistiques, de les ancrer dans la dynamique du domaine incarné, et d’apprendre les comportements correspondants par imagination. Comme évalué par des benchmarks multitâches à grande échelle, GenRL montre une forte performance de généralisation multitâche dans plusieurs domaines de locomotion et de manipulation. De plus, en introduisant une stratégie RL sans données, il jette les bases du RL basé sur des modèles fondamentaux pour des agents incarnés généralistes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Pietro Mazzaglia

Tim Verbelen

Bart Dhoedt

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Modèles fondamentaux multimodaux du monde pour agents incarnés généralistes

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study