Bewertung generativer KI-Chatbots für groß angelegte Assessments: Vergleich von LLM-als-Richter und menschlichen Bewertungen | Synapse