RS-DPO: Eine hybride Methode aus Rejection Sampling und direkter Präferenzoptimierung zur Ausrichtung großer Sprachmodelle | Synapse