El aprendizaje por refuerzo (RL) ha demostrado resultados impresionantes en tareas de toma de decisiones secuenciales. Los modelos de lenguaje grandes (LLMs) y los modelos de visión-lenguaje (VLMs) han surgido recientemente, exhibiendo capacidades destacadas en comprensión y razonamiento multimodal. Estos avances han llevado a un aumento de la investigación que integra LLMs y VLMs en RL. Esta revisión analiza trabajos representativos en los que se utilizan LLMs y VLMs para superar desafíos clave en RL, como la falta de conocimiento previo, la planificación a largo plazo y el diseño de recompensas. Presentamos una taxonomía que categoriza estos enfoques asistidos por LLM/VLM en tres roles: agente, planificador y recompensa. Concluimos explorando problemas abiertos, incluyendo grounding, mitigación de sesgos, representaciones mejoradas y asesoramiento en acciones. Al consolidar la investigación existente e identificar direcciones futuras, esta revisión establece un marco para integrar LLMs y VLMs en RL, avanzando en los enfoques que unifican la comprensión del lenguaje natural y visual con la toma de decisiones secuencial.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sheila Schoepp
Masoud Jafaripour
Yingyue Cao
University of Alberta
Nanjing University
Intel (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Schoepp et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68d46fcd31b076d99fa69d8b — DOI: https://doi.org/10.24963/ijcai.2025/1181
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: