What question did this study set out to answer?

本研究旨在评估生成式AI聊天机器人在大规模教育数据评估中相对人类评分的有效性。

March 14, 2026Open Access

评估生成式AI聊天机器人用于大规模评估数据：比较LLM作为评判者与人工评分

Key Points

本研究旨在评估生成式AI聊天机器人在大规模教育数据评估中相对人类评分的有效性。
使用检索增强生成（RAG）框架开发定制生成式AI聊天机器人。
基于正确性、完整性和沟通质量三个维度，比较LLM作为评判者的评估与人类专家评分。
采用三维框架评估聊天机器人回答，并使用二次加权卡帕计算评分者间一致性。
LLM作为评判者在所有评估维度上表现出与人类评分相当的可靠性。
人类与人类间以及人类与LLM间评分一致性无显著差异，沟通质量维度外，后者更高。
基于LLM的评估提供了一个可扩展且成本效益高的人工评估替代方案。

Abstract

本研究聚焦于开发和评估定制的生成式AI聊天机器人，旨在提升大规模教育数据的访问能力。该聊天机器人旨在通过自然语言查询帮助研究人员和政策制定者探索复杂的数据集，如NAEP。聊天机器人基于检索增强生成（RAG）框架构建，整合了多个专门代理用于检索、解读和综合教育数据。选取其中一个代理作为性能评估的案例研究。研究比较了基于大型语言模型（LLM）的自动化评估（“LLM作为评判者”）与人类专家评分，以检验基于正确性、完整性和沟通质量三项标准的有效性和一致性。共使用141个专家生成的问题，反映典型用户查询，每个问题均附有参考答案和来源文档。对聊天机器人的回答采用正确性、完整性和沟通这三维框架进行评估。除人工评估外，还实现了基于LLM的自动评估，模型在评估中提供了评分标准、人类撰写的参考答案和检索到的RAG内容以生成自动质量评价。使用二次加权卡帕（QWK）计算人类评分者和LLM评判者间的评分一致性。结果显示，LLM评判者方法在所有评估维度上与人类评分者达到了相当水平的一致性，并表现出良好的可靠性。一致性分析显示，人类与人类之间评分一致性与人类与LLM一致性无显著差异，唯一在沟通维度上人类与LLM的一致性更高。这些结果表明，LLM作为评判者的方法可以作为基于RAG的定制聊天机器人评估时有效且一致的替代方案。将基于LLM的评估融入生成式AI聊天机器人的评估体系，提供了一个可扩展、可靠且成本效益高的传统人工审查补充手段。在具有人类监督以进行校准和验证的条件下，该方法促进了更高效和一致的评估实践，推进了利用AI工具促进广泛访问大规模教育数据的应用。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ting Zhang

Luke Patterson

Blue Webb

Journals

Large-scale Assessments in Education

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

评估生成式AI聊天机器人用于大规模评估数据：比较LLM作为评判者与人工评分

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study