What question did this study set out to answer?

यह शोध बड़े पैमाने पर शैक्षिक डेटा का मूल्यांकन करने में जेनेरेटिव एआई चैटबॉट की प्रभावशीलता का मानव रेटिंग्स के मुकाबले आंकलन करना चाहता है।

March 14, 2026Open Access

बड़े पैमाने पर मूल्यांकन डेटा के लिए जेनेरेटिव एआई चैटबॉट्स का मूल्यांकन: LLM-एज़-ए-जज और मानव रेटिंग्स की तुलना

Key Points

यह शोध बड़े पैमाने पर शैक्षिक डेटा का मूल्यांकन करने में जेनेरेटिव एआई चैटबॉट की प्रभावशीलता का मानव रेटिंग्स के मुकाबले आंकलन करना चाहता है।
रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) फ्रेमवर्क का उपयोग करके एक अनुकूलित जेनेरेटिव एआई चैटबॉट विकसित किया गया
सटीकता, पूर्णता, और संचार के आधार पर LLM-एज़-ए-जज मूल्यांकन की मानव विशेषज्ञ रेटिंग्स से तुलना की गई
चैटबॉट के उत्तरों का तीन-आयामी ढांचे से मूल्यांकन किया गया और क्वाड्रैटिक वेटेड कप्पा का उपयोग कर अंतरराटर विश्वसनीयता की गणना की गई।
LLM-एज़-ए-जज ने मूल्यांकन आयामों में मानव रेटिंग्स के समान विश्वसनीयता प्रदर्शित की
मानव-से-मानव और मानव-से-LLM सहमति में कोई महत्वपूर्ण अंतर नहीं, सिवाय संचार गुणवत्ता में
LLM-आधारित मूल्यांकन मानव आकलन का पैमाने पर और लागत-कुशल विकल्प प्रस्तुत करता है।

Abstract

यह अध्ययन बड़े पैमाने पर शैक्षिक डेटा तक पहुंच बढ़ाने के लिए एक अनुकूलित जेनेरेटिव एआई चैटबॉट विकसित करने और उसका मूल्यांकन करने पर केंद्रित है। चैटबॉट का उद्देश्य शोधकर्ताओं और नीति निर्माताओं को NAEP जैसे जटिल डेटासेट्स को प्राकृतिक भाषा क्वेरियों के माध्यम से एक्सप्लोर करने में सहायता करना है। चैटबॉट को रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) फ्रेमवर्क का उपयोग करके बनाया गया था जो शिक्षा डेटा पुनः प्राप्त करने, व्याख्या करने और संश्लेषित करने के लिए कई विशेषज्ञ एजेंटों को एकीकृत करता है। एक एजेंट को प्रदर्शन मूल्यांकन के लिए केस स्टडी के रूप में चुना गया। अध्ययन ने स्वचालित बड़े भाषा मॉडल (LLM)-आधारित मूल्यांकन (“LLM-एज़-ए-जज”) की तुलना मानव विशेषज्ञ रेटिंग्स से की ताकि तीन मानदंडों—सटीकता, पूर्णता, और संचार गुणवत्ता—के संदर्भ में वैधता और स्थिरता की जांच की जा सके। कुल 141 विशेषज्ञ-जनित प्रश्नों का उपयोग किया गया जो सामान्य उपयोगकर्ता क्वेरियों को दर्शाते हैं, जिनमें प्रत्येक के साथ एक संदर्भ उत्तर और स्रोत दस्तावेज़ थे। चैटबॉट के उत्तरों का तीन-आयामी ढांचे पर सही होने, पूर्ण होने, और संचार की दृष्टि से मूल्यांकन किया गया। मानव मूल्यांकन के अतिरिक्त, LLM-आधारित मूल्यांकन भी लागू किया गया और मॉडल को रूब्रिक, मानव द्वारा लिखे संदर्भ उत्तर प्रदान किए गए, साथ ही पुनः प्राप्त RAG सामग्री प्रदान कर स्वचालित गुणवत्ता मूल्यांकन उत्पन्न किए गए। मानव रेटर्स और LLM-एज़-ए-जज के बीच अंतरराटर विश्वसनीयता को क्वाड्रैटिक वेटेड कप्पा (QWK) से गणना की गई। परिणामों से पता चला कि LLM-एज़-ए-जज दृष्टिकोण ने मानव रेटर्स के साथ तुलनीय सहमति स्तर हासिल किए और सभी मूल्यांकन आयामों में विश्वसनीयता प्रदर्शित की। अंतरराटर विश्वसनीयता विश्लेषण में मानव-से-मानव और मानव-से-LLM सहमति के बीच कोई महत्वपूर्ण अंतर नहीं पाया गया, सिवाय संचार आयाम के जहां मानव-से-LLM स्थिरता अधिक थी। ये परिणाम संकेत देते हैं कि LLM-एज़-ए-जज विधि अनुकूलित RAG-आधारित चैटबॉट मूल्यांकन के लिए एक व्यवहार्य और स्थिर वैकल्पिक मानव मूल्यांकन के रूप में कार्य कर सकती है। जेनेरेटिव एआई चैटबॉट्स के मूल्यांकन में LLM-आधारित मूल्यांकन को एकीकृत करने से यह पैमाने पर, विश्वसनीय और लागत-कुशल पूरक प्रदान करता है पारंपरिक मानव समीक्षा के लिए। मापCalibration और सत्यापन के लिए मानव पर्यवेक्षण के साथ, यह दृष्टिकोण अधिक कुशल और निरंतर मूल्यांकन प्रथाओं को सक्षम बनाता है, जिससे बड़े पैमाने पर शैक्षिक डेटा तक व्यापक पहुंच को सुविधाजनक बनाने वाले एआई उपकरणों का उपयोग बढ़ता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ting Zhang

Luke Patterson

Blue Webb

Journals

Large-scale Assessments in Education

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

बड़े पैमाने पर मूल्यांकन डेटा के लिए जेनेरेटिव एआई चैटबॉट्स का मूल्यांकन: LLM-एज़-ए-जज और मानव रेटिंग्स की तुलना

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider