Key points are not available for this paper at this time.
Apprendre à des agents incarnés généralistes, capables de résoudre une multitude de tâches dans différents domaines, est un problème de longue date. L'apprentissage par renforcement (RL) est difficile à monter en échelle car il nécessite une conception complexe de la récompense pour chaque tâche. En revanche, le langage peut spécifier les tâches de manière plus naturelle. Les modèles fondamentaux actuels vision-langage (VLM) nécessitent généralement un ajustement fin ou d'autres adaptations pour être fonctionnels, en raison du fossé important entre les domaines. Cependant, le manque de données multimodales dans ces domaines représente un obstacle au développement de modèles fondamentaux pour les applications incarnées. Dans ce travail, nous surmontons ces problèmes en présentant des modèles fondamentaux multimodaux du monde, capables de connecter et d’aligner la représentation des VLM fondamentaux avec l’espace latent des modèles génératifs du monde pour la RL, sans aucune annotation linguistique. Le cadre d’apprentissage agent résultant, GenRL, permet de spécifier les tâches par des invites visuelles et/ou linguistiques, de les ancrer dans la dynamique du domaine incarné, et d’apprendre les comportements correspondants par imagination. Comme évalué par des benchmarks multitâches à grande échelle, GenRL montre une forte performance de généralisation multitâche dans plusieurs domaines de locomotion et de manipulation. De plus, en introduisant une stratégie RL sans données, il jette les bases du RL basé sur des modèles fondamentaux pour des agents incarnés généralistes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Pietro Mazzaglia
Tim Verbelen
Bart Dhoedt
Building similarity graph...
Analyzing shared references across papers
Loading...
Mazzaglia et al. (Mar,) ont étudié cette question.
www.synapsesocial.com/papers/68e636c5b6db6435875c8d86 — DOI: https://doi.org/10.48550/arxiv.2406.18043