Key points are not available for this paper at this time.
대형 언어 모델(LLM)은 다양한 의료 질문응답(QA) 과제에서 최첨단 성능을 달성했으나, 여전히 환상(hallucinations)과 최신성이 떨어지는 지식 문제에 직면해 있습니다. 검색 보강 생성(RAG)은 유망한 해결책으로 널리 채택되고 있습니다. 그러나 RAG 시스템은 여러 유연한 구성 요소를 포함할 수 있으며, 다양한 의료 목적에 최적의 RAG 설정에 대한 모범 사례가 부족합니다. 이런 시스템을 체계적으로 평가하기 위해, 우리는 5개의 의료 QA 데이터셋에서 7,663개의 질문을 포함하는 최초의 벤치마크인 의료 정보 검색 보강 생성 평가(MIRAGE)를 제안합니다. MIRAGE를 사용하여, 본 연구에서 소개하는 MedRAG 도구 키트를 통해 41개의 코퍼스, 검색기, 기본 LLM 조합에 대해 1.8조 이상의 프롬프트 토큰으로 대규모 실험을 수행했습니다. 전반적으로 MedRAG는 여섯 가지 서로 다른 LLM의 정확도를 최대 18%까지 향상시켜 사슬 사고(chain-of-thought) 프롬프트 대비 성능을 높였으며, GPT-3.5와 Mixtral의 성능을 GPT-4 수준으로 끌어올렸습니다. 결과는 다양한 의료 코퍼스와 검색기의 조합이 최고의 성능을 달성함을 보여줍니다. 또한 의료 RAG에서 로그-선형 스케일링 특성과 "중간에서 잃어버리는(lost-in-the-middle)" 현상을 발견했습니다. 우리는 이 포괄적인 평가가 의료용 RAG 시스템 구현에 실용적인 지침이 될 수 있다고 믿습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Guangzhi Xiong
Qiao Jin
Zhiyong Lu
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiong 등(화,)은 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e785bab6db6435876f876a — DOI: https://doi.org/10.48550/arxiv.2402.13178
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: