Key points are not available for this paper at this time.
ContextoA inteligência artificial (IA) é um avanço tecnológico em rápido desenvolvimento, com considerável potencial para influenciar o campo da medicina. Como etapa preliminar para integrar a IA na prática médica, é imperativo verificar se o desempenho do modelo é comparável ao dos médicos. Apresentamos uma comparação sistemática do desempenho de um grande modelo de linguagem (LLM) em relação a um grande grupo de médicos. A coorte inclui todos os residentes que fizeram o exame de licença para especialistas médicos em Israel em 2022 nas disciplinas médicas principais: medicina interna, cirurgia geral, pediatria, psiquiatria e obstetrícia e ginecologia (OB/GYN). Fornecemos os exames como um conjunto de dados de referência acessível para as comunidades de aprendizado de máquina médica e processamento de linguagem natural, que pode ser adaptado para estudos futuros com LLMs.MétodosAvaliamos o desempenho do transformer generativo pré-treinado 3.5 (GPT-3.5) e GPT-4 nos exames de residência médica de 2022 em Israel e comparamos os resultados com os de 849 médicos em atividade. As pontuações oficiais dos médicos foram obtidas da Associação Médica Israelense. Para comparar o desempenho do GPT com o dos médicos, calculamos os percentis do modelo entre os médicos em cada exame. Consideramos a aleatoriedade do modelo aplicando-o a cada exame 120 vezes.ResultadosGPT-4 classificou-se acima da maioria dos médicos em psiquiatria, com um percentil mediano de 74,7% (intervalo de confiança de 95%, IC, para o percentil, 66,2 a 81,0), e teve desempenho similar ao do médico mediano em cirurgia geral e medicina interna, apresentando percentis medianos de 44,4% (IC de 95%, 38,9 a 55,5) e 56,6% (IC de 95%, 44,0 a 65,7), respectivamente. O desempenho do GPT-4 foi inferior em pediatria e OB/GYN, mas permaneceu superior a uma fração considerável de médicos em atividade, com uma pontuação mediana de 17,4% (IC de 95%, 9,55 a 30,9) e 23,44% (IC de 95%, 14,84 a 44,5), respectivamente. GPT-3.5 não passou no exame em nenhuma disciplina e foi inferior à maioria dos médicos nas cinco disciplinas. No geral, o GPT-4 passou no exame de residência em quatro de cinco especialidades, revelando uma pontuação mediana superior à pontuação oficial de aprovação de 65%.ConclusõesO avanço do GPT-3.5 para o GPT-4 marca um marco crítico em que LLMs atingiram desempenho em nível médico. Esses achados destacam a maturidade potencial da tecnologia LLM, instando a comunidade médica a explorar suas aplicações amplas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Uriel Katz
Eran Cohen
Eliya Shachar
NEJM AI
University of Washington
Tel Aviv University
Technion – Israel Institute of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Katz et al. (sex,) estudaram essa questão.
www.synapsesocial.com/papers/68e6f4d2b6db64358766fe64 — DOI: https://doi.org/10.1056/aidbp2300192
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: