What question did this study set out to answer?

대형 언어 모델이 전자의무기록에서 추출한 임상 데이터의 품질을 검증하기 위한 프레임워크를 제안하는 것이 목적입니다.

March 18, 2026

큐레이션된 전자의무기록 기반 데이터의 신뢰성 확보: 대형 언어 모델/기계 학습 추출 정보 및 데이터의 정확성 검증(VALID) 프레임워크

Key Points

대형 언어 모델이 전자의무기록에서 추출한 임상 데이터의 품질을 검증하기 위한 프레임워크를 제안하는 것이 목적입니다.
LLM 추출 임상 데이터에 대한 검증 프레임워크 개발.
전문가 인간 추상과의 성능 벤치마킹.
내부 일관성과 타당성 검증 수행.
LLM 데이터와 인간 추상 및 외부 표준 간 재복제 분석.
인구통계학적 하위 그룹 데이터 분석을 통한 편향 평가.
데이터 추출에서 개선이 필요한 주요 변수를 식별.
잠재 오류에 대한 체계적 감지 프로세스 확립.
실제 연구에 적합한 데이터 세트의 목적 적합성 확인.
종양학 AI 응용 분야에서 데이터 품질에 대한 산업 표준 강화.

Abstract

대형 언어 모델(LLM)은 전자의무기록에서 임상 데이터를 추출하는 데 점점 더 많이 사용되고 있으며, 종양학 분야의 실제 데이터(RWD) 큐레이션에서 확장성과 효율성을 크게 향상시킵니다. 그러나 LLM의 채택은 연구, 규제, 임상 응용에 필수적인 추출 데이터의 신뢰성, 정확성 및 공정성을 보장하는 새로운 도전을 가져옵니다. 기존의 RWD 및 인공지능(AI) 품질 보증 프레임워크는 LLM 추출 데이터와 관련된 고유한 오류 양상과 복잡성을 완전히 다루지 못합니다. 본 논문에서는 LLM이 추출한 임상 데이터의 품질 평가를 위한 포괄적인 프레임워크를 제안합니다. 이 프레임워크는 전문가 인간 추상과의 변수별 성능 벤치마킹, 내부 일관성과 타당성 검증, LLM 추출 데이터와 인간 추상 데이터 세트 또는 외부 표준과의 재복제 분석을 통합합니다. 이 다차원 접근법은 개선이 가장 필요한 변수를 식별하고 잠재 오류를 체계적으로 감지하며 실제 연구에서 데이터 세트의 목적 적합성을 확인할 수 있게 합니다. 또한 인구통계학적 하위 그룹별 층화로 편향 평가를 지원합니다. LLM 추출 RWD 평가를 위한 엄격하고 투명한 방법을 제공함으로써, 이 프레임워크는 산업 표준을 진전시키고 종양학 연구 및 실무에서 AI 기반 증거 생성의 신뢰할 수 있는 사용을 지원합니다.

Bookmark

큐레이션된 전자의무기록 기반 데이터의 신뢰성 확보: 대형 언어 모델/기계 학습 추출 정보 및 데이터의 정확성 검증(VALID) 프레임워크

Key Points

Abstract

Cite This Study