Diese Studie konzentriert sich auf die Entwicklung und Bewertung eines maßgeschneiderten generativen KI-Chatbots, der den Zugang zu groß angelegten Bildungsdaten verbessern soll. Der Chatbot zielt darauf ab, Forschern und politischen Entscheidungsträgern zu helfen, komplexe Datensätze wie NAEP durch natürlichsprachliche Anfragen zu erkunden. Der Chatbot wurde mit einem Retrieval-Augmented Generation (RAG)-Framework aufgebaut, das mehrere spezialisierte Agenten integriert, um Bildungsdaten abzurufen, zu interpretieren und zu synthetisieren. Ein Agent wurde als Fallstudie für die Leistungsevaluierung ausgewählt. Die Studie verglich eine automatisierte Bewertung basierend auf einem großen Sprachmodell (LLM) („LLM-als-Richter“) mit menschlichen Expertenbewertungen, um Validität und Konsistenz über drei Kriterien zu untersuchen: Korrektheit, Vollständigkeit und Kommunikationsqualität. Insgesamt wurden 141 von Experten generierte Fragen verwendet, die typische Nutzeranfragen widerspiegeln und jeweils eine Referenzantwort sowie Quelldokumentation enthielten. Die Antworten des Chatbots wurden mit einem dreidimensionalen Rahmenwerk auf Korrektheit, Vollständigkeit und Kommunikation bewertet. Zusätzlich zur menschlichen Bewertung wurde eine LLM-basierte Bewertung implementiert, bei der das Modell das Bewertungsraster, menschlich verfasste Referenzantworten und abgerufene RAG-Inhalte zur automatischen Qualitätsbewertung erhielt. Die Interrater-Reliabilität zwischen menschlichen Bewertern und dem LLM-als-Richter wurde mit einem quadratisch gewichteten Kappa (QWK) berechnet. Die Ergebnisse zeigten, dass der LLM-als-Richter-Ansatz vergleichbare Übereinstimmungsgrade mit menschlichen Bewertern erreichte und eine Zuverlässigkeit über alle Bewertungsdimensionen hinweg demonstrierte. Analysen zur Interrater-Reliabilität zeigten keine signifikanten Unterschiede zwischen Interhuman- und Human-zu-LLM-Übereinstimmung, außer im Bereich der Kommunikation, wo die Konsistenz zwischen Mensch und LLM höher war. Diese Ergebnisse deuten darauf hin, dass die Methode LLM-als-Richter als praktikable und konsistente Alternative zur menschlichen Bewertung für die maßgeschneiderte RAG-basierte Chatbot-Bewertung dienen kann. Die Integration der LLM-basierten Bewertung in die Bewertung generativer KI-Chatbots bietet eine skalierbare, zuverlässige und kosteneffiziente Ergänzung zur traditionellen menschlichen Prüfung. Mit menschlicher Aufsicht zur Kalibrierung und Validierung ermöglicht dieser Ansatz effizientere und konsistentere Bewertungsverfahren und fördert die Nutzung von KI-Werkzeugen, die einen breiteren Zugang zu groß angelegten Bildungsdaten erleichtern.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ting Zhang
Luke Patterson
Blue Webb
Large-scale Assessments in Education
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69b4add218185d8a39801d2f — DOI: https://doi.org/10.1186/s40536-026-00287-w
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: