What type of study is this?

This is a Literature Review study.

September 20, 2025

El panorama evolutivo del aprendizaje por refuerzo integrado con LLM y VLM

Puntos clave

La integración de grandes modelos de lenguaje y modelos visión-lenguaje mejora diversos desafíos del aprendizaje por refuerzo, como el diseño de recompensas.
La revisión identifica tres roles para LLM/VLM: agente, planificador y recompensa, facilitando la toma efectiva de decisiones.
Se exploran temas clave como grounding, mitigación de sesgos y la necesidad de representaciones mejoradas en aprendizaje por refuerzo.
Estableciendo un marco para la investigación futura, esta revisión busca avanzar en la integración de diferentes modalidades de comprensión en RL.

Resumen

El aprendizaje por refuerzo (RL) ha demostrado resultados impresionantes en tareas de toma de decisiones secuenciales. Los modelos de lenguaje grandes (LLMs) y los modelos de visión-lenguaje (VLMs) han surgido recientemente, exhibiendo capacidades destacadas en comprensión y razonamiento multimodal. Estos avances han llevado a un aumento de la investigación que integra LLMs y VLMs en RL. Esta revisión analiza trabajos representativos en los que se utilizan LLMs y VLMs para superar desafíos clave en RL, como la falta de conocimiento previo, la planificación a largo plazo y el diseño de recompensas. Presentamos una taxonomía que categoriza estos enfoques asistidos por LLM/VLM en tres roles: agente, planificador y recompensa. Concluimos explorando problemas abiertos, incluyendo grounding, mitigación de sesgos, representaciones mejoradas y asesoramiento en acciones. Al consolidar la investigación existente e identificar direcciones futuras, esta revisión establece un marco para integrar LLMs y VLMs en RL, avanzando en los enfoques que unifican la comprensión del lenguaje natural y visual con la toma de decisiones secuencial.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sheila Schoepp

Masoud Jafaripour

Yingyue Cao

Actions

Institutions

University of Alberta

Nanjing University

Intel (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

El panorama evolutivo del aprendizaje por refuerzo integrado con LLM y VLM

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider