April 12, 2024Open Access

GPT versus Médicos Residentes — Um Referencial Baseado em Pontuações Oficiais de Conselho

Key Points

Key points are not available for this paper at this time.

Abstract

ContextoA inteligência artificial (IA) é um avanço tecnológico em rápido desenvolvimento, com considerável potencial para influenciar o campo da medicina. Como etapa preliminar para integrar a IA na prática médica, é imperativo verificar se o desempenho do modelo é comparável ao dos médicos. Apresentamos uma comparação sistemática do desempenho de um grande modelo de linguagem (LLM) em relação a um grande grupo de médicos. A coorte inclui todos os residentes que fizeram o exame de licença para especialistas médicos em Israel em 2022 nas disciplinas médicas principais: medicina interna, cirurgia geral, pediatria, psiquiatria e obstetrícia e ginecologia (OB/GYN). Fornecemos os exames como um conjunto de dados de referência acessível para as comunidades de aprendizado de máquina médica e processamento de linguagem natural, que pode ser adaptado para estudos futuros com LLMs.MétodosAvaliamos o desempenho do transformer generativo pré-treinado 3.5 (GPT-3.5) e GPT-4 nos exames de residência médica de 2022 em Israel e comparamos os resultados com os de 849 médicos em atividade. As pontuações oficiais dos médicos foram obtidas da Associação Médica Israelense. Para comparar o desempenho do GPT com o dos médicos, calculamos os percentis do modelo entre os médicos em cada exame. Consideramos a aleatoriedade do modelo aplicando-o a cada exame 120 vezes.ResultadosGPT-4 classificou-se acima da maioria dos médicos em psiquiatria, com um percentil mediano de 74,7% (intervalo de confiança de 95%, IC, para o percentil, 66,2 a 81,0), e teve desempenho similar ao do médico mediano em cirurgia geral e medicina interna, apresentando percentis medianos de 44,4% (IC de 95%, 38,9 a 55,5) e 56,6% (IC de 95%, 44,0 a 65,7), respectivamente. O desempenho do GPT-4 foi inferior em pediatria e OB/GYN, mas permaneceu superior a uma fração considerável de médicos em atividade, com uma pontuação mediana de 17,4% (IC de 95%, 9,55 a 30,9) e 23,44% (IC de 95%, 14,84 a 44,5), respectivamente. GPT-3.5 não passou no exame em nenhuma disciplina e foi inferior à maioria dos médicos nas cinco disciplinas. No geral, o GPT-4 passou no exame de residência em quatro de cinco especialidades, revelando uma pontuação mediana superior à pontuação oficial de aprovação de 65%.ConclusõesO avanço do GPT-3.5 para o GPT-4 marca um marco crítico em que LLMs atingiram desempenho em nível médico. Esses achados destacam a maturidade potencial da tecnologia LLM, instando a comunidade médica a explorar suas aplicações amplas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Uriel Katz

Eran Cohen

Eliya Shachar

Journals

NEJM AI

Actions

Institutions

University of Washington

Tel Aviv University

Technion – Israel Institute of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

GPT versus Médicos Residentes — Um Referencial Baseado em Pontuações Oficiais de Conselho

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider