Este estudio se centra en el desarrollo y evaluación de un chatbot de IA generativa personalizado diseñado para mejorar el acceso a datos educativos a gran escala. El chatbot tiene como objetivo ayudar a investigadores y responsables de políticas a explorar conjuntos de datos complejos, como NAEP, mediante consultas en lenguaje natural. El chatbot fue construido utilizando un marco de Generación Aumentada por Recuperación (RAG) que integra múltiples agentes especializados para recuperar, interpretar y sintetizar datos educativos. Se seleccionó un agente como estudio de caso para la evaluación del rendimiento. El estudio comparó una evaluación automatizada basada en un Modelo de Lenguaje Grande (LLM) (“LLM como juez”) con valoraciones de expertos humanos para examinar la validez y consistencia en tres criterios: corrección, integridad y calidad de comunicación. Se utilizaron un total de 141 preguntas generadas por expertos que reflejan consultas típicas de usuarios, cada una acompañada por una respuesta de referencia y documentación fuente. Las respuestas del chatbot fueron evaluadas con un marco tridimensional en Corrección, Integridad y Comunicación. Además de la evaluación humana, se implementó una evaluación basada en LLM, proporcionando al modelo la rúbrica, respuestas de referencia escritas por humanos y contenidos recuperados por RAG para generar evaluaciones automatizadas de calidad. La fiabilidad entre evaluadores humanos y LLM como juez se calculó con kappa ponderado cuadrático (QWK). Los resultados mostraron que el método LLM como juez alcanzó niveles comparables de acuerdo con evaluadores humanos y demostró fiabilidad en todas las dimensiones de evaluación. Los análisis de fiabilidad interevaluador no revelaron diferencias significativas entre el acuerdo interhumano y humano-LLM, excepto en la dimensión de comunicación, donde la consistencia humano-LLM fue mayor. Estos resultados indican que el método LLM como juez puede servir como una alternativa viable y consistente a la evaluación humana para la valoración de chatbots personalizados basados en RAG. La integración de la evaluación basada en LLM en la evaluación de chatbots de IA generativa ofrece un complemento escalable, fiable y rentable a la revisión humana tradicional. Con supervisión humana para calibración y validación, este enfoque permite prácticas de evaluación más eficientes y consistentes, avanzando en el uso de herramientas de IA que facilitan un acceso más amplio a datos educativos a gran escala.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ting Zhang
Luke Patterson
Blue Webb
Large-scale Assessments in Education
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (jue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69b4add218185d8a39801d2f — DOI: https://doi.org/10.1186/s40536-026-00287-w
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: