Evaluación de la Ineficacia de la Retroalimentación Sintética de Aprendizaje por Refuerzo en el Ajuste Fino de Grandes Modelos de Lenguaje | Synapse