What question did this study set out to answer?

Ziel der Forschung ist es, die Wirksamkeit eines generativen KI-Chatbots bei der Bewertung groß angelegter Bildungsdaten im Vergleich zu menschlichen Bewertungen zu beurteilen.

March 14, 2026Open Access

Bewertung generativer KI-Chatbots für groß angelegte Bewertungsdaten: Vergleich von LLM-als-Richter und menschlichen Bewertungen

Key Points

Ziel der Forschung ist es, die Wirksamkeit eines generativen KI-Chatbots bei der Bewertung groß angelegter Bildungsdaten im Vergleich zu menschlichen Bewertungen zu beurteilen.
Entwicklung eines maßgeschneiderten generativen KI-Chatbots unter Verwendung des Retrieval-Augmented Generation (RAG)-Frameworks
Vergleich der LLM-als-Richter-Bewertungen mit menschlichen Expertenbewertungen anhand von Korrektheit, Vollständigkeit und Kommunikation
Bewertung der Chatbot-Antworten mit einem dreidimensionalen Rahmenwerk und Berechnung der Interrater-Reliabilität mittels quadratisch gewichteten Kappa.
LLM-als-Richter zeigte eine vergleichbare Zuverlässigkeit zu menschlichen Bewertungen über alle Bewertungsdimensionen hinweg.
Keine signifikanten Unterschiede zwischen Interhuman- und Human-zu-LLM-Übereinstimmung, außer bei der Kommunikationsqualität.
Die LLM-basierte Bewertung bietet eine skalierbare und kosteneffiziente Alternative zu menschlichen Bewertungen.

Abstract

Diese Studie konzentriert sich auf die Entwicklung und Bewertung eines maßgeschneiderten generativen KI-Chatbots, der den Zugang zu groß angelegten Bildungsdaten verbessern soll. Der Chatbot zielt darauf ab, Forschern und politischen Entscheidungsträgern zu helfen, komplexe Datensätze wie NAEP durch natürlichsprachliche Anfragen zu erkunden. Der Chatbot wurde mit einem Retrieval-Augmented Generation (RAG)-Framework aufgebaut, das mehrere spezialisierte Agenten integriert, um Bildungsdaten abzurufen, zu interpretieren und zu synthetisieren. Ein Agent wurde als Fallstudie für die Leistungsevaluierung ausgewählt. Die Studie verglich eine automatisierte Bewertung basierend auf einem großen Sprachmodell (LLM) („LLM-als-Richter“) mit menschlichen Expertenbewertungen, um Validität und Konsistenz über drei Kriterien zu untersuchen: Korrektheit, Vollständigkeit und Kommunikationsqualität. Insgesamt wurden 141 von Experten generierte Fragen verwendet, die typische Nutzeranfragen widerspiegeln und jeweils eine Referenzantwort sowie Quelldokumentation enthielten. Die Antworten des Chatbots wurden mit einem dreidimensionalen Rahmenwerk auf Korrektheit, Vollständigkeit und Kommunikation bewertet. Zusätzlich zur menschlichen Bewertung wurde eine LLM-basierte Bewertung implementiert, bei der das Modell das Bewertungsraster, menschlich verfasste Referenzantworten und abgerufene RAG-Inhalte zur automatischen Qualitätsbewertung erhielt. Die Interrater-Reliabilität zwischen menschlichen Bewertern und dem LLM-als-Richter wurde mit einem quadratisch gewichteten Kappa (QWK) berechnet. Die Ergebnisse zeigten, dass der LLM-als-Richter-Ansatz vergleichbare Übereinstimmungsgrade mit menschlichen Bewertern erreichte und eine Zuverlässigkeit über alle Bewertungsdimensionen hinweg demonstrierte. Analysen zur Interrater-Reliabilität zeigten keine signifikanten Unterschiede zwischen Interhuman- und Human-zu-LLM-Übereinstimmung, außer im Bereich der Kommunikation, wo die Konsistenz zwischen Mensch und LLM höher war. Diese Ergebnisse deuten darauf hin, dass die Methode LLM-als-Richter als praktikable und konsistente Alternative zur menschlichen Bewertung für die maßgeschneiderte RAG-basierte Chatbot-Bewertung dienen kann. Die Integration der LLM-basierten Bewertung in die Bewertung generativer KI-Chatbots bietet eine skalierbare, zuverlässige und kosteneffiziente Ergänzung zur traditionellen menschlichen Prüfung. Mit menschlicher Aufsicht zur Kalibrierung und Validierung ermöglicht dieser Ansatz effizientere und konsistentere Bewertungsverfahren und fördert die Nutzung von KI-Werkzeugen, die einen breiteren Zugang zu groß angelegten Bildungsdaten erleichtern.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ting Zhang

Luke Patterson

Blue Webb

Journals

Large-scale Assessments in Education

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Bewertung generativer KI-Chatbots für groß angelegte Bewertungsdaten: Vergleich von LLM-als-Richter und menschlichen Bewertungen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider