本研究聚焦于开发和评估定制的生成式AI聊天机器人,旨在提升大规模教育数据的访问能力。该聊天机器人旨在通过自然语言查询帮助研究人员和政策制定者探索复杂的数据集,如NAEP。聊天机器人基于检索增强生成(RAG)框架构建,整合了多个专门代理用于检索、解读和综合教育数据。选取其中一个代理作为性能评估的案例研究。研究比较了基于大型语言模型(LLM)的自动化评估(“LLM作为评判者”)与人类专家评分,以检验基于正确性、完整性和沟通质量三项标准的有效性和一致性。共使用141个专家生成的问题,反映典型用户查询,每个问题均附有参考答案和来源文档。对聊天机器人的回答采用正确性、完整性和沟通这三维框架进行评估。除人工评估外,还实现了基于LLM的自动评估,模型在评估中提供了评分标准、人类撰写的参考答案和检索到的RAG内容以生成自动质量评价。使用二次加权卡帕(QWK)计算人类评分者和LLM评判者间的评分一致性。结果显示,LLM评判者方法在所有评估维度上与人类评分者达到了相当水平的一致性,并表现出良好的可靠性。一致性分析显示,人类与人类之间评分一致性与人类与LLM一致性无显著差异,唯一在沟通维度上人类与LLM的一致性更高。这些结果表明,LLM作为评判者的方法可以作为基于RAG的定制聊天机器人评估时有效且一致的替代方案。将基于LLM的评估融入生成式AI聊天机器人的评估体系,提供了一个可扩展、可靠且成本效益高的传统人工审查补充手段。在具有人类监督以进行校准和验证的条件下,该方法促进了更高效和一致的评估实践,推进了利用AI工具促进广泛访问大规模教育数据的应用。
Building similarity graph...
Analyzing shared references across papers
Loading...
Ting Zhang
Luke Patterson
Blue Webb
Large-scale Assessments in Education
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang等人(星期四,)研究了该问题。
www.synapsesocial.com/papers/69b4add218185d8a39801d2f — DOI: https://doi.org/10.1186/s40536-026-00287-w