Cette étude se concentre sur le développement et l'évaluation d'un chatbot d'IA générative personnalisé conçu pour améliorer l'accès aux données éducatives à grande échelle. Le chatbot vise à aider les chercheurs et décideurs à explorer des ensembles de données complexes, tels que NAEP, via des requêtes en langage naturel. Le chatbot a été construit en utilisant un cadre de génération augmentée par recherche (RAG) qui intègre plusieurs agents spécialisés pour récupérer, interpréter et synthétiser les données éducatives. Un agent a été choisi comme étude de cas pour l'évaluation de performance. L'étude a comparé une évaluation automatisée basée sur un Large Language Model (LLM) (« LLM-comme-juge ») avec des évaluations humaines d'experts afin d'examiner la validité et la cohérence sur trois critères : exactitude, exhaustivité et qualité de communication. Au total, 141 questions générées par des experts représentant des requêtes types d'utilisateurs ont été utilisées, chacune accompagnée d'une réponse de référence et d'une documentation source. Les réponses du chatbot ont été évaluées selon un cadre tridimensionnel portant sur l'exactitude, l'exhaustivité et la communication. En complément de l'évaluation humaine, une évaluation basée sur le LLM a été implémentée, et le modèle a reçu la grille d'évaluation, les réponses humaines de référence et les contenus récupérés par le RAG pour générer des évaluations automatisées de qualité. La fiabilité inter-évaluateurs entre évaluateurs humains et le LLM-comme-juge a été calculée via le kappa pondéré quadratique (QWK). Les résultats ont montré que l'approche LLM-comme-juge a atteint des niveaux d'accord comparables à ceux des évaluateurs humains et a démontré une fiabilité sur toutes les dimensions d'évaluation. Les analyses de fiabilité inter-évaluateurs n'ont révélé aucune différence significative entre l'accord inter-humains et humain-vers-LLM, sauf pour la dimension communication où la cohérence humain-vers-LLM était supérieure. Ces résultats indiquent que la méthode LLM-comme-juge peut servir d'alternative viable et cohérente à l'évaluation humaine pour l'évaluation personnalisée des chatbots basés sur RAG. L'intégration de l'évaluation basée sur LLM dans l'évaluation des chatbots d'IA générative offre un complément évolutif, fiable et économique à la revue humaine traditionnelle. Avec une supervision humaine pour calibration et validation, cette approche permet des pratiques d'évaluation plus efficaces et cohérentes, favorisant l'utilisation d'outils d'IA facilitant un accès élargi aux données éducatives à grande échelle.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ting Zhang
Luke Patterson
Blue Webb
Large-scale Assessments in Education
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Thu,) ont étudié cette question.
www.synapsesocial.com/papers/69b4add218185d8a39801d2f — DOI: https://doi.org/10.1186/s40536-026-00287-w