Key points are not available for this paper at this time.
बड़े भाषा मॉडल (LLMs) सामान्य कृत्रिम बुद्धिमत्ता के क्षेत्रों में महत्वपूर्ण प्रभाव डाल चुके हैं। सामान्य उद्देश्य वाले LLMs में मजबूत तर्क और समझदारी कौशल तथा सामान्य विश्व ज्ञान होता है, लेकिन कभी-कभी विशिष्ट विषय क्षेत्रों पर प्रॉम्प्ट किए जाने पर वे भ्रामक परिणाम उत्पन्न कर सकते हैं। डोमेन-विशिष्ट ज्ञान के साथ प्रशिक्षित LLMs भ्रामक जानकारी (यानी हल्यूसिनेशन) के उत्पादन को कम कर सकते हैं और विशेषज्ञ संदर्भों में LLMs की सटीकता को बढ़ा सकते हैं। हालांकि, विशिष्ट कॉर्पस पर नए LLMs का प्रशिक्षण संसाधन-प्रधान हो सकता है। यहां हमने एक retrieval-augmented generation (RAG) मॉडल का उपयोग किया, जिसे हमने जैवचिकित्सा अनुसंधान क्षेत्र से संबंधित साहित्य पर परीक्षण किया। OpenAI के GPT-3.5, GPT-4, Microsoft के Prometheus, और एक कस्टम RAG मॉडल का उपयोग diffuse large B-cell lymphoma (DLBCL) रोग जीवविज्ञान और उपचार से संबंधित 19 प्रश्नों के उत्तर देने के लिए किया गया। आठ स्वतंत्र समीक्षकों ने LLM प्रतिक्रियाओं का सटीकता, प्रासंगिकता और पठनीयता के आधार पर मूल्यांकन किया, प्रत्येक श्रेणी के लिए 3-बिंदु मापक पर प्रतिक्रियाओं को रेट किया। इन स्कोरों का उपयोग LLM प्रदर्शन की तुलना के लिए किया गया। LLMs का प्रदर्शन स्कोरिंग श्रेणियों में भिन्न था। सटीकता और प्रासंगिकता पर, RAG मॉडल ने औसत में उच्च स्कोर और प्रश्नों पर सबसे अधिक शीर्ष स्कोर प्राप्त कर अन्य मॉडलों को पीछे छोड़ दिया। GPT-4 प्रासंगिकता पर RAG मॉडल के अधिक समीप था बनिस्बत सटीकता के। समान मापदंडों से, GPT-4 और GPT-3.5 ने अन्य LLMs की तुलना में उत्तरों की पठनीयता के लिए सर्वोच्च स्कोर प्राप्त किए। GPT-4 और 3.5 में अन्य LLMs की तुलना में अधिक हल्यूसिनेशन वाले उत्तर थे, जो अभावित संदर्भों और नैदानिक प्रश्नों के प्रति असत्य उत्तरों के कारण था। हमारे निष्कर्ष सुझाव देते हैं कि एक ऑन्कोलॉजी अनुसंधान-केंद्रित RAG मॉडल विषय-संबंधित प्रश्नों का उत्तर देते समय सामान्य उद्देश्य वाले LLMs की तुलना में सटीकता और प्रासंगिकता में बेहतर प्रदर्शन कर सकता है। यह ढांचा अन्य विषय क्षेत्रों में प्रश्नोत्तर के लिए अनुकूलित किया जा सकता है। आगे के अनुसंधान से समझने में मदद मिलेगी कि LLM वास्तुकला, RAG विधियों, और प्रॉम्प्टिंग तकनीकों का प्रभाव विभिन्न विषय क्षेत्रों में प्रश्नों के उत्तर देने में कैसा होता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
David S. Soong
Sriram Sridhar
Han Si
PLOS Digital Health
Genmab (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Soong et al. (Wed,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e5b740b6db64358754f6b7 — DOI: https://doi.org/10.1371/journal.pdig.0000568
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: