摘要 大型语言模型(LLMs)在处理和生成特定领域信息方面表现出卓越能力。然而,其在临床决策中的应用仍受限于不可靠性和知识过时。在诸如放射科等时间敏感的医疗环境中,快速获取准确且最新的指南对优化患者结果至关重要。欧洲泌尿生殖放射学会(ESUR)指南提供了相应的诊断和治疗建议,但手动查询通常耗时且效率低下。为解决这些挑战,我们开发了一个检索增强生成(RAG)系统,使LLM响应基于权威指南内容。该系统采用基于标题的分块方法和all-mpnet-base-v2嵌入模型来提取、索引和检索信息。我们使用79个查询对其性能进行了评估,比较了独立LLM和增强迭代RAG系统,评估指标包括检索准确性、事实正确性、完整性和临床实用性。两个RAG系统在所有指标上显著优于独立LLM,增强模型成绩最高:事实准确率(0.89对0.68)、完整性(5分量表上4.20对3.05)和实用性(5分量表上3.99对3.09)。增强的RAG流程在事实准确性和完整性方面较标准版本表现略有提升,但统计学上无显著差异。尽管结果令人鼓舞,仍有提升检索准确性和减少幻觉的空间。未来通过领域特定嵌入和高级查询扩展等改进,或能进一步提高可靠性。研究表明,基于基础数据的RAG系统在提升临床指南可及性方面具有巨大潜力,但临床部署前需进一步验证。
Building similarity graph...
Analyzing shared references across papers
Loading...
Alexander Komenda
Marcus Makowski
Elif Can
Journal of Imaging Informatics in Medicine
Building similarity graph...
Analyzing shared references across papers
Loading...
Komenda 等人(周四)研究了此问题。
www.synapsesocial.com/papers/699011a12ccff479cfe58879 — DOI: https://doi.org/10.1007/s10278-025-01835-6
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: