Feinabstimmung von Sprachmodellen mit Belohnungslernen auf der Politik | Synapse