Los Grandes Modelos Visión-Lenguaje (LVLMs) o modelos grandes multimodales representan un avance significativo en inteligencia artificial, permitiendo que los sistemas comprendan y generen contenido en modalidades visuales y textuales. Aunque el preentrenamiento a gran escala ha impulsado un progreso sustancial, afinar estos modelos para alinearlos con los valores humanos o para tareas y comportamientos específicos sigue siendo un desafío crítico. El Aprendizaje por Refuerzo Profundo (DRL) y la Optimización Directa de Preferencias (DPO) ofrecen marcos prometedores para este proceso de alineación. Mientras que DRL permite que los modelos optimicen sus acciones usando señales de recompensa en lugar de depender únicamente de datos supervisados de preferencias, DPO alinea directamente la política con las preferencias, eliminando la necesidad de un modelo explícito de recompensa. Esta revisión explora paradigmas para afinar LVLMs, destacando cómo las técnicas de DRL y DPO pueden usarse para alinear modelos con preferencias y valores humanos, mejorar el rendimiento en tareas y posibilitar una interacción multimodal adaptativa. Se categorizan los enfoques clave, se examinan las fuentes de datos de preferencia y señales de recompensa, y se discuten desafíos abiertos como escalabilidad, eficiencia muestral, aprendizaje continuo, generalización y seguridad. El objetivo es proporcionar una comprensión clara de cómo DRL y DPO contribuyen a la evolución de LVLMs robustos y alineados con los humanos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Thanh Thi Nguyen
Campbell Wilson
Janis Dalins
Building similarity graph...
Analyzing shared references across papers
Loading...
Nguyen et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e02f40f0e39f13e7fa280d — DOI: https://doi.org/10.48550/arxiv.2509.06759
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: