Effizientes RL zur Optimierung von Konversationsergebnissen mit einem LLM-basierten Tutor | Synapse