Key points are not available for this paper at this time.
大型语言模型(LLMs)在通用人工智能领域产生了重大影响。通用型LLMs展现出强大的逻辑推理能力和广泛的世界知识,但在针对特定主题领域提问时,有时会生成误导性结果。通过特定领域知识训练的LLMs可以减少生成误导信息(即幻觉),并提高LLMs在专业环境中的精确度。然而,在特定语料库上训练新的LLMs可能资源消耗巨大。本文探讨了检索增强生成(RAG)模型的应用,我们在生物医学研究领域相关文献上进行了测试。我们使用OpenAI的GPT-3.5、GPT-4、微软的Prometheus以及自定义RAG模型,回答了19个关于弥漫性大B细胞淋巴瘤(DLBCL)疾病生物学和治疗的问题。八位独立评审基于准确性、相关性和可读性对LLM回答进行评估,每个类别按3分制评分。随后利用这些评分比较了LLM的表现。LLMs在不同评分类别上的表现有所差异。在准确性和相关性方面,RAG模型表现优于其他模型,平均得分更高,且在多个问题上得分最高。GPT-4在相关性方面与RAG模型更为接近,而在准确性上表现稍逊。同样的评估标准显示,GPT-4和GPT-3.5在答案可读性方面得分最高。GPT-4和3.5在回答中出现幻觉的次数也较多,主要因引用不存在和临床问题回答不准确。我们的研究结果表明,针对肿瘤学研究领域构建的RAG模型在回答相关主题问题时,可在准确性和相关性方面优于通用型LLMs。该框架可针对其他学科领域的问题回答进行定制。未来研究将有助于理解LLM架构、RAG方法学及提示技术在不同学科领域答题效果中的影响。
Building similarity graph...
Analyzing shared references across papers
Loading...
David S. Soong
Sriram Sridhar
Han Si
PLOS Digital Health
Genmab (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Soong等人(周三)研究了这个问题。
www.synapsesocial.com/papers/68e5b740b6db64358754f6b7 — DOI: https://doi.org/10.1371/journal.pdig.0000568
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: