यह अध्ययन बड़े पैमाने पर शैक्षिक डेटा तक पहुंच बढ़ाने के लिए एक अनुकूलित जेनेरेटिव एआई चैटबॉट विकसित करने और उसका मूल्यांकन करने पर केंद्रित है। चैटबॉट का उद्देश्य शोधकर्ताओं और नीति निर्माताओं को NAEP जैसे जटिल डेटासेट्स को प्राकृतिक भाषा क्वेरियों के माध्यम से एक्सप्लोर करने में सहायता करना है। चैटबॉट को रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) फ्रेमवर्क का उपयोग करके बनाया गया था जो शिक्षा डेटा पुनः प्राप्त करने, व्याख्या करने और संश्लेषित करने के लिए कई विशेषज्ञ एजेंटों को एकीकृत करता है। एक एजेंट को प्रदर्शन मूल्यांकन के लिए केस स्टडी के रूप में चुना गया। अध्ययन ने स्वचालित बड़े भाषा मॉडल (LLM)-आधारित मूल्यांकन (“LLM-एज़-ए-जज”) की तुलना मानव विशेषज्ञ रेटिंग्स से की ताकि तीन मानदंडों—सटीकता, पूर्णता, और संचार गुणवत्ता—के संदर्भ में वैधता और स्थिरता की जांच की जा सके। कुल 141 विशेषज्ञ-जनित प्रश्नों का उपयोग किया गया जो सामान्य उपयोगकर्ता क्वेरियों को दर्शाते हैं, जिनमें प्रत्येक के साथ एक संदर्भ उत्तर और स्रोत दस्तावेज़ थे। चैटबॉट के उत्तरों का तीन-आयामी ढांचे पर सही होने, पूर्ण होने, और संचार की दृष्टि से मूल्यांकन किया गया। मानव मूल्यांकन के अतिरिक्त, LLM-आधारित मूल्यांकन भी लागू किया गया और मॉडल को रूब्रिक, मानव द्वारा लिखे संदर्भ उत्तर प्रदान किए गए, साथ ही पुनः प्राप्त RAG सामग्री प्रदान कर स्वचालित गुणवत्ता मूल्यांकन उत्पन्न किए गए। मानव रेटर्स और LLM-एज़-ए-जज के बीच अंतरराटर विश्वसनीयता को क्वाड्रैटिक वेटेड कप्पा (QWK) से गणना की गई। परिणामों से पता चला कि LLM-एज़-ए-जज दृष्टिकोण ने मानव रेटर्स के साथ तुलनीय सहमति स्तर हासिल किए और सभी मूल्यांकन आयामों में विश्वसनीयता प्रदर्शित की। अंतरराटर विश्वसनीयता विश्लेषण में मानव-से-मानव और मानव-से-LLM सहमति के बीच कोई महत्वपूर्ण अंतर नहीं पाया गया, सिवाय संचार आयाम के जहां मानव-से-LLM स्थिरता अधिक थी। ये परिणाम संकेत देते हैं कि LLM-एज़-ए-जज विधि अनुकूलित RAG-आधारित चैटबॉट मूल्यांकन के लिए एक व्यवहार्य और स्थिर वैकल्पिक मानव मूल्यांकन के रूप में कार्य कर सकती है। जेनेरेटिव एआई चैटबॉट्स के मूल्यांकन में LLM-आधारित मूल्यांकन को एकीकृत करने से यह पैमाने पर, विश्वसनीय और लागत-कुशल पूरक प्रदान करता है पारंपरिक मानव समीक्षा के लिए। मापCalibration और सत्यापन के लिए मानव पर्यवेक्षण के साथ, यह दृष्टिकोण अधिक कुशल और निरंतर मूल्यांकन प्रथाओं को सक्षम बनाता है, जिससे बड़े पैमाने पर शैक्षिक डेटा तक व्यापक पहुंच को सुविधाजनक बनाने वाले एआई उपकरणों का उपयोग बढ़ता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Ting Zhang
Luke Patterson
Blue Webb
Large-scale Assessments in Education
Building similarity graph...
Analyzing shared references across papers
Loading...
ज़ांग एट अल. (गुरु,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/69b4add218185d8a39801d2f — DOI: https://doi.org/10.1186/s40536-026-00287-w
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: