L'auto-apprentissage avec optimisation directe des préférences améliore le raisonnement en chaîne de pensée | Synapse