What question did this study set out to answer?

La investigación busca evaluar la efectividad de un chatbot de IA generativa en la valoración de datos educativos a gran escala en comparación con valoraciones humanas.

March 14, 2026Open Access

Evaluación de chatbots generativos de IA para datos de evaluación a gran escala: comparación entre LLM como juez y valoraciones humanas

Puntos clave

La investigación busca evaluar la efectividad de un chatbot de IA generativa en la valoración de datos educativos a gran escala en comparación con valoraciones humanas.
Desarrolló un chatbot de IA generativa personalizado utilizando el marco de generación aumentada por recuperación (RAG)
Comparó las evaluaciones de LLM como juez con valoraciones de expertos humanos basadas en corrección, integridad y comunicación
Evaluó respuestas del chatbot usando un marco tridimensional y calculó la fiabilidad entre evaluadores mediante kappa ponderado cuadrático.
LLM como juez demostró una fiabilidad comparable a las valoraciones humanas en dimensiones de evaluación
No hubo diferencias significativas en el acuerdo interhumano frente al acuerdo humano-LLM, excepto en la calidad de la comunicación
La evaluación basada en LLM ofrece una alternativa escalable y rentable a las valoraciones humanas.

Resumen

Este estudio se centra en el desarrollo y evaluación de un chatbot de IA generativa personalizado diseñado para mejorar el acceso a datos educativos a gran escala. El chatbot tiene como objetivo ayudar a investigadores y responsables de políticas a explorar conjuntos de datos complejos, como NAEP, mediante consultas en lenguaje natural. El chatbot fue construido utilizando un marco de Generación Aumentada por Recuperación (RAG) que integra múltiples agentes especializados para recuperar, interpretar y sintetizar datos educativos. Se seleccionó un agente como estudio de caso para la evaluación del rendimiento. El estudio comparó una evaluación automatizada basada en un Modelo de Lenguaje Grande (LLM) (“LLM como juez”) con valoraciones de expertos humanos para examinar la validez y consistencia en tres criterios: corrección, integridad y calidad de comunicación. Se utilizaron un total de 141 preguntas generadas por expertos que reflejan consultas típicas de usuarios, cada una acompañada por una respuesta de referencia y documentación fuente. Las respuestas del chatbot fueron evaluadas con un marco tridimensional en Corrección, Integridad y Comunicación. Además de la evaluación humana, se implementó una evaluación basada en LLM, proporcionando al modelo la rúbrica, respuestas de referencia escritas por humanos y contenidos recuperados por RAG para generar evaluaciones automatizadas de calidad. La fiabilidad entre evaluadores humanos y LLM como juez se calculó con kappa ponderado cuadrático (QWK). Los resultados mostraron que el método LLM como juez alcanzó niveles comparables de acuerdo con evaluadores humanos y demostró fiabilidad en todas las dimensiones de evaluación. Los análisis de fiabilidad interevaluador no revelaron diferencias significativas entre el acuerdo interhumano y humano-LLM, excepto en la dimensión de comunicación, donde la consistencia humano-LLM fue mayor. Estos resultados indican que el método LLM como juez puede servir como una alternativa viable y consistente a la evaluación humana para la valoración de chatbots personalizados basados en RAG. La integración de la evaluación basada en LLM en la evaluación de chatbots de IA generativa ofrece un complemento escalable, fiable y rentable a la revisión humana tradicional. Con supervisión humana para calibración y validación, este enfoque permite prácticas de evaluación más eficientes y consistentes, avanzando en el uso de herramientas de IA que facilitan un acceso más amplio a datos educativos a gran escala.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Feed social

Authors

Ting Zhang

Luke Patterson

Blue Webb

Journals

Large-scale Assessments in Education

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Evaluación de chatbots generativos de IA para datos de evaluación a gran escala: comparación entre LLM como juez y valoraciones humanas

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Feed social

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider