Alineación de grandes modelos visual-lingüísticos mediante aprendizaje por refuerzo profundo y optimización directa de preferencias | Synapse