What question did this study set out to answer?

开发并评估一种用于改善临床放射学指南获取的检索增强生成（RAG）系统。

February 14, 2026Open Access

放射学指南的检索增强生成系统的开发与评估

Key Points

开发并评估一种用于改善临床放射学指南获取的检索增强生成（RAG）系统。
开发了一个利用欧洲泌尿生殖放射学会（ESUR）指南的RAG系统。
采用基于标题的分块方法和all-mpnet-base-v2嵌入模型进行信息检索。
使用79个查询评估系统性能，比较独立LLM和增强RAG系统。
评估指标包括检索准确性、事实正确性、完整性和临床实用性。
增强的RAG系统在所有衡量指标上均显著优于独立LLM。
增强RAG的事实准确率为0.89，独立LLM为0.68。
完整性得分为增强RAG的4.20，独立LLM为3.05（5分量表）。
实用性评分为增强RAG的3.99，独立LLM为3.09（5分量表）。

Abstract

摘要大型语言模型（LLMs）在处理和生成特定领域信息方面表现出卓越能力。然而，其在临床决策中的应用仍受限于不可靠性和知识过时。在诸如放射科等时间敏感的医疗环境中，快速获取准确且最新的指南对优化患者结果至关重要。欧洲泌尿生殖放射学会（ESUR）指南提供了相应的诊断和治疗建议，但手动查询通常耗时且效率低下。为解决这些挑战，我们开发了一个检索增强生成（RAG）系统，使LLM响应基于权威指南内容。该系统采用基于标题的分块方法和all-mpnet-base-v2嵌入模型来提取、索引和检索信息。我们使用79个查询对其性能进行了评估，比较了独立LLM和增强迭代RAG系统，评估指标包括检索准确性、事实正确性、完整性和临床实用性。两个RAG系统在所有指标上显著优于独立LLM，增强模型成绩最高：事实准确率（0.89对0.68）、完整性（5分量表上4.20对3.05）和实用性（5分量表上3.99对3.09）。增强的RAG流程在事实准确性和完整性方面较标准版本表现略有提升，但统计学上无显著差异。尽管结果令人鼓舞，仍有提升检索准确性和减少幻觉的空间。未来通过领域特定嵌入和高级查询扩展等改进，或能进一步提高可靠性。研究表明，基于基础数据的RAG系统在提升临床指南可及性方面具有巨大潜力，但临床部署前需进一步验证。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alexander Komenda

Marcus Makowski

Elif Can

Journals

Journal of Imaging Informatics in Medicine

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

放射学指南的检索增强生成系统的开发与评估

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider