Lernen, wann man nachdenken sollte: Gestaltung adaptiven Denkens in R1-Modellen durch mehrstufiges RL | Synapse