What question did this study set out to answer?

La recherche vise à évaluer l'efficacité d'un chatbot d'IA générative dans l'évaluation de données éducatives à grande échelle par rapport aux évaluations humaines.

March 14, 2026Open Access

Évaluation des chatbots d'IA générative pour les données d'évaluation à grande échelle : comparaison entre LLM-comme-juge et évaluations humaines

Key Points

La recherche vise à évaluer l'efficacité d'un chatbot d'IA générative dans l'évaluation de données éducatives à grande échelle par rapport aux évaluations humaines.
Développement d'un chatbot d'IA générative personnalisé utilisant le cadre de génération augmentée par recherche (RAG)
Comparaison des évaluations LLM-comme-juge avec les évaluations d'experts humains basées sur l'exactitude, l'exhaustivité et la communication
Évaluation des réponses du chatbot avec un cadre tridimensionnel et calcul de la fiabilité inter-évaluateurs via le kappa pondéré quadratique.
Le LLM-comme-juge a démontré une fiabilité comparable aux évaluations humaines sur toutes les dimensions d'évaluation.
Aucune différence significative entre l'accord inter-humain et humain-vers-LLM, sauf pour la qualité de communication.
L'évaluation basée sur le LLM offre une alternative évolutive et rentable aux évaluations humaines.

Abstract

Cette étude se concentre sur le développement et l'évaluation d'un chatbot d'IA générative personnalisé conçu pour améliorer l'accès aux données éducatives à grande échelle. Le chatbot vise à aider les chercheurs et décideurs à explorer des ensembles de données complexes, tels que NAEP, via des requêtes en langage naturel. Le chatbot a été construit en utilisant un cadre de génération augmentée par recherche (RAG) qui intègre plusieurs agents spécialisés pour récupérer, interpréter et synthétiser les données éducatives. Un agent a été choisi comme étude de cas pour l'évaluation de performance. L'étude a comparé une évaluation automatisée basée sur un Large Language Model (LLM) (« LLM-comme-juge ») avec des évaluations humaines d'experts afin d'examiner la validité et la cohérence sur trois critères : exactitude, exhaustivité et qualité de communication. Au total, 141 questions générées par des experts représentant des requêtes types d'utilisateurs ont été utilisées, chacune accompagnée d'une réponse de référence et d'une documentation source. Les réponses du chatbot ont été évaluées selon un cadre tridimensionnel portant sur l'exactitude, l'exhaustivité et la communication. En complément de l'évaluation humaine, une évaluation basée sur le LLM a été implémentée, et le modèle a reçu la grille d'évaluation, les réponses humaines de référence et les contenus récupérés par le RAG pour générer des évaluations automatisées de qualité. La fiabilité inter-évaluateurs entre évaluateurs humains et le LLM-comme-juge a été calculée via le kappa pondéré quadratique (QWK). Les résultats ont montré que l'approche LLM-comme-juge a atteint des niveaux d'accord comparables à ceux des évaluateurs humains et a démontré une fiabilité sur toutes les dimensions d'évaluation. Les analyses de fiabilité inter-évaluateurs n'ont révélé aucune différence significative entre l'accord inter-humains et humain-vers-LLM, sauf pour la dimension communication où la cohérence humain-vers-LLM était supérieure. Ces résultats indiquent que la méthode LLM-comme-juge peut servir d'alternative viable et cohérente à l'évaluation humaine pour l'évaluation personnalisée des chatbots basés sur RAG. L'intégration de l'évaluation basée sur LLM dans l'évaluation des chatbots d'IA générative offre un complément évolutif, fiable et économique à la revue humaine traditionnelle. Avec une supervision humaine pour calibration et validation, cette approche permet des pratiques d'évaluation plus efficaces et cohérentes, favorisant l'utilisation d'outils d'IA facilitant un accès élargi aux données éducatives à grande échelle.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ting Zhang

Luke Patterson

Blue Webb

Journals

Large-scale Assessments in Education

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Évaluation des chatbots d'IA générative pour les données d'évaluation à grande échelle : comparaison entre LLM-comme-juge et évaluations humaines

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study