SRPO: Eine domänenübergreifende Implementierung von groß angelegtem Reinforcement Learning auf LLM | Synapse