대형 언어 모델(LLM)은 전자의무기록에서 임상 데이터를 추출하는 데 점점 더 많이 사용되고 있으며, 종양학 분야의 실제 데이터(RWD) 큐레이션에서 확장성과 효율성을 크게 향상시킵니다. 그러나 LLM의 채택은 연구, 규제, 임상 응용에 필수적인 추출 데이터의 신뢰성, 정확성 및 공정성을 보장하는 새로운 도전을 가져옵니다. 기존의 RWD 및 인공지능(AI) 품질 보증 프레임워크는 LLM 추출 데이터와 관련된 고유한 오류 양상과 복잡성을 완전히 다루지 못합니다. 본 논문에서는 LLM이 추출한 임상 데이터의 품질 평가를 위한 포괄적인 프레임워크를 제안합니다. 이 프레임워크는 전문가 인간 추상과의 변수별 성능 벤치마킹, 내부 일관성과 타당성 검증, LLM 추출 데이터와 인간 추상 데이터 세트 또는 외부 표준과의 재복제 분석을 통합합니다. 이 다차원 접근법은 개선이 가장 필요한 변수를 식별하고 잠재 오류를 체계적으로 감지하며 실제 연구에서 데이터 세트의 목적 적합성을 확인할 수 있게 합니다. 또한 인구통계학적 하위 그룹별 층화로 편향 평가를 지원합니다. LLM 추출 RWD 평가를 위한 엄격하고 투명한 방법을 제공함으로써, 이 프레임워크는 산업 표준을 진전시키고 종양학 연구 및 실무에서 AI 기반 증거 생성의 신뢰할 수 있는 사용을 지원합니다.
Estévez 등(일자 미상)이 이 문제를 연구하였습니다.