Key points are not available for this paper at this time.
대형 언어 모델이 종종 인상적인 출력을 생성하지만, 강력한 추론 능력과 전문 도메인 지식이 요구되는 실제 상황에서 어떻게 수행되는지는 아직 명확하지 않습니다. 우리는 폐쇄형 및 오픈 소스 모델(GPT-3.5, Llama 2 등)이 어려운 실제 기반 질문에 답변하고 추론하는 데 적용될 수 있는지 조사하고자 했습니다. 우리는 세 가지 인기 있는 의료 벤치마크(MedQA-US Medical Licensing Examination USMLE, MedMCQA, PubMedQA)와 여러 프롬프트 시나리오: 연쇄 사고(chain of thought, CoT; 단계별 사고), 몇 샷 학습(few shot), 검색 보강(retrieval augmentation)에 집중했습니다. 생성된 CoT에 대한 전문가 주석을 기반으로, InstructGPT가 종종 전문가 지식을 읽고, 추론하며, 기억할 수 있음을 발견했습니다. 마지막으로, 프롬프트 엔지니어링(몇 샷 및 앙상블 방법)의 발전을 활용하여, GPT-3.5가 보정된 예측 분포를 제공할 뿐만 아니라 세 데이터셋에서 통과 점수에 도달함을 입증했습니다: MedQA-USMLE(60.2%), MedMCQA(62.7%), PubMedQA(78.2%). 오픈 소스 모델도 격차를 좁히고 있습니다: Llama 2 70B는 MedQA-USMLE에서 62.5% 정확도로 통과했습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Valentin Liévin
Christoffer Hother
Andreas Geert Motzfeldt
Patterns
University of Copenhagen
Technical University of Denmark
Rigshospitalet
Building similarity graph...
Analyzing shared references across papers
Loading...
Liévin 등(Fri,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e7604eb6db6435876d7490 — DOI: https://doi.org/10.1016/j.patter.2024.100943
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: