April 17, 2024Open Access

Modelos de linguagem grandes alcançam conhecimento e raciocínio clínico em nível de especialista em oftalmologia: Um estudo transversal comparativo

Key Points

Key points are not available for this paper at this time.

Abstract

Os grandes modelos de linguagem (LLMs) sustentam avanços notáveis recentes no processamento de linguagem natural e estão começando a ser aplicados em contextos clínicos. Nosso objetivo foi avaliar o potencial clínico dos LLMs de última geração em oftalmologia utilizando um benchmark mais robusto do que simples pontuações de exames. Testamos o GPT-3.5 e GPT-4 em 347 perguntas de oftalmologia antes de testar GPT-3.5, GPT-4, PaLM 2, LLaMA, oftalmologistas especialistas e médicos em formação em um exame simulado de 87 perguntas. O desempenho foi analisado em relação ao assunto da questão e tipo (recordação de primeira ordem e raciocínio de ordem superior). Oftalmologistas mascarados avaliaram a precisão, relevância e preferência geral das respostas do GPT-3.5 e GPT-4 às mesmas perguntas. O desempenho do GPT-4 (69%) foi superior ao do GPT-3.5 (48%), LLaMA (32%) e PaLM 2 (56%). O GPT-4 comparou-se favoravelmente com oftalmologistas especialistas (mediana 76%, intervalo 64–90%), residentes em oftalmologia (mediana 59%, intervalo 57–63%) e médicos não especializados (mediana 43%, intervalo 41–44%). A baixa concordância entre LLMs e médicos refletiu diferenças idiossincráticas em conhecimento e raciocínio, com consistência geral entre temas e tipos (p >0,05). Todos os oftalmologistas preferiram as respostas do GPT-4 em relação ao GPT-3.5 e classificaram a precisão e relevância do GPT-4 como superiores (p <0,05). Os LLMs estão se aproximando de conhecimentos e habilidades de raciocínio em nível especialista em oftalmologia. Considerando o desempenho comparável ou superior aos oftalmologistas em formação e médicos não especializados, LLMs de última geração como o GPT-4 podem fornecer aconselhamento e assistência médica úteis onde o acesso a especialistas em oftalmologia é limitado. Benchmarks clínicos fornecem avaliações úteis das capacidades dos LLMs em saúde antes que ensaios clínicos possam ser planejados e conduzidos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Arun James Thirunavukarasu

Shathar Mahmood

Andrew Malem

Journals

PLOS Digital Health

Actions

Institutions

Stanford University

University of Oxford

University of Cambridge

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Modelos de linguagem grandes alcançam conhecimento e raciocínio clínico em nível de especialista em oftalmologia: Um estudo transversal comparativo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider