본 연구는 대규모 교육 데이터 접근성을 향상시키기 위해 맞춤형 생성형 AI 챗봇을 개발하고 평가하는 데 중점을 둔 연구입니다. 이 챗봇은 연구자와 정책입안자가 NAEP와 같은 복잡한 데이터셋을 자연어 질의를 통해 탐색하는 데 도움을 주고자 합니다. 챗봇은 여러 전문 에이전트를 통합하여 교육 데이터를 검색, 해석, 종합하는 Retrieval-Augmented Generation(RAG) 프레임워크를 사용하여 구축되었습니다. 성능 평가를 위한 사례 연구로 한 에이전트가 선정되었습니다. 본 연구는 자동화된 대규모 언어 모델(LLM) 기반 평가(“LLM 평가자”)와 인간 전문가 평가를 비교하여 정확성, 완전성, 소통 품질 세 가지 기준에 대한 타당성과 일관성을 검사했습니다. 전형적인 사용자 질의를 반영한 141개의 전문가 생성 질문과 각각의 참고 답변 및 출처 문서가 사용되었습니다. 챗봇 응답은 정확성, 완전성, 소통 측면의 3차원 프레임워크로 평가되었습니다. 인간 평가 외에도 LLM 기반 평가가 구현되어 평가 척도, 인간 작성 참고 답변, 검색된 RAG 내용을 제공받아 자동 품질 평가를 수행하였습니다. 인간 평가자들과 LLM 평가자 간의 평가자 간 신뢰도는 2차 가중 카파(QWK)로 계산되었습니다. 결과는 LLM 평가자가 인간 평가자와 비교 가능한 합의 수준을 달성하고 모든 평가 차원에서 신뢰성을 입증했음을 보여줍니다. 평가자 간 신뢰도 분석에서 인간 간과 인간-LLM 간 합의에 유의한 차이가 없었으며, 단지 소통 차원에서 인간-LLM 일관성이 더 높았습니다. 이러한 결과는 LLM 평가자 방식이 맞춤형 RAG 기반 챗봇 평가에서 인간 평가를 대체할 수 있는 실행 가능하고 일관된 대안임을 시사합니다. LLM 기반 평가를 생성형 AI 챗봇 평가에 통합하면 기존 인간 평가를 보완하는 확장 가능하고 신뢰할 수 있으며 비용 효율적인 방법을 제공합니다. 조정과 검증을 위한 인간 감독과 함께 이 방법은 더 효율적이고 일관된 평가 실행을 가능하게 하여 대규모 교육 데이터 접근성을 촉진하는 AI 도구 활용을 진전시킵니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등(목요일,)이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/69b4add218185d8a39801d2f — DOI: https://doi.org/10.1186/s40536-026-00287-w
Ting Zhang
Luke Patterson
Blue Webb
Large-scale Assessments in Education
Building similarity graph...
Analyzing shared references across papers
Loading...