대형 언어 모델(LLM)은 다양한 행정 및 임상 업무를 지원하면서 헬스케어를 혁신하고 있습니다. 그러나 최근 연구들은 이들이 기존 헬스케어 불평등을 심화시킬 가능성에 대한 우려를 제기했습니다. 전통적인 알고리즘 감시 접근법은 복잡한 텍스트 기반 입력을 처리하고 인간과 유사한 출력을 생성하는 LLM이 제기하는 고유한 문제를 해결하는 데 한계가 있습니다. 본 관점에서는 임상 환경에서 LLM 편향 평가 현황을 검토하고 기존 감사 방법론의 주요 공백을 식별합니다. LLM 응용에서 편향을 분류하고 탐지하기 위한 포괄적 지침을 제안하며, 이를 실제 배포된 두 시스템인 인바스킷 환자 응답 작성과 정신 건강 챗봇 사례를 통해 보여줍니다. 마지막으로 빠르게 진화하는 기술 환경에서 LLM 편향 평가를 진전시키기 위한 구체적 권고를 제시합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Irene Y. Chen
Emily Alsentzer
NEJM AI
Stanford University
University of California, Berkeley
University of California, San Francisco
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen 등(목요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68c1d7ee54b1d3bfb60f9fd6 — DOI: https://doi.org/10.1056/aip2500015
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: