Los puntos clave no están disponibles para este artículo en este momento.
Aprender agentes generalistas incorporados, capaces de resolver múltiples tareas en diferentes dominios, es un problema antiguo. El aprendizaje por refuerzo (RL) es difícil de escalar ya que requiere un diseño complejo de recompensas para cada tarea. En contraste, el lenguaje puede especificar tareas de una manera más natural. Los modelos fundacionales actuales de visión-lenguaje (VLMs) generalmente requieren ajuste fino u otras adaptaciones para ser funcionales, debido a la significativa brecha de dominio. Sin embargo, la falta de datos multimodales en dichos dominios representa un obstáculo para desarrollar modelos fundacionales para aplicaciones incorporadas. En este trabajo, superamos estos problemas presentando modelos fundacionales multimodales del mundo, capaces de conectar y alinear la representación de los VLMs fundacionales con el espacio latente de modelos generativos del mundo para RL, sin anotaciones de lenguaje. El marco de aprendizaje resultante, GenRL, permite especificar tareas a través de indicaciones visuales y/o lingüísticas, fundamentarlas en la dinámica del dominio incorporado, y aprender los comportamientos correspondientes en imaginación. Según evaluaciones mediante benchmarking multitarea a gran escala, GenRL exhibe un fuerte desempeño de generalización multitarea en varios dominios de locomoción y manipulación. Además, al introducir una estrategia de RL sin datos, sienta las bases para RL basado en modelos fundacionales para agentes generalistas incorporados.
Building similarity graph...
Analyzing shared references across papers
Loading...
Pietro Mazzaglia
Tim Verbelen
Bart Dhoedt
Building similarity graph...
Analyzing shared references across papers
Loading...
Mazzaglia et al. (Mar,) estudiaron esta pregunta.
www.synapsesocial.com/papers/68e636c5b6db6435875c8d86 — DOI: https://doi.org/10.48550/arxiv.2406.18043
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: