Optimisation des Préférences Mixtes : Apprentissage par Renforcement avec Sélection de Données et Modèle de Référence Amélioré | Synapse