Key points are not available for this paper at this time.
Os grandes modelos de linguagem (LLMs) sustentam avanços notáveis recentes no processamento de linguagem natural e estão começando a ser aplicados em contextos clínicos. Nosso objetivo foi avaliar o potencial clínico dos LLMs de última geração em oftalmologia utilizando um benchmark mais robusto do que simples pontuações de exames. Testamos o GPT-3.5 e GPT-4 em 347 perguntas de oftalmologia antes de testar GPT-3.5, GPT-4, PaLM 2, LLaMA, oftalmologistas especialistas e médicos em formação em um exame simulado de 87 perguntas. O desempenho foi analisado em relação ao assunto da questão e tipo (recordação de primeira ordem e raciocínio de ordem superior). Oftalmologistas mascarados avaliaram a precisão, relevância e preferência geral das respostas do GPT-3.5 e GPT-4 às mesmas perguntas. O desempenho do GPT-4 (69%) foi superior ao do GPT-3.5 (48%), LLaMA (32%) e PaLM 2 (56%). O GPT-4 comparou-se favoravelmente com oftalmologistas especialistas (mediana 76%, intervalo 64–90%), residentes em oftalmologia (mediana 59%, intervalo 57–63%) e médicos não especializados (mediana 43%, intervalo 41–44%). A baixa concordância entre LLMs e médicos refletiu diferenças idiossincráticas em conhecimento e raciocínio, com consistência geral entre temas e tipos (p >0,05). Todos os oftalmologistas preferiram as respostas do GPT-4 em relação ao GPT-3.5 e classificaram a precisão e relevância do GPT-4 como superiores (p <0,05). Os LLMs estão se aproximando de conhecimentos e habilidades de raciocínio em nível especialista em oftalmologia. Considerando o desempenho comparável ou superior aos oftalmologistas em formação e médicos não especializados, LLMs de última geração como o GPT-4 podem fornecer aconselhamento e assistência médica úteis onde o acesso a especialistas em oftalmologia é limitado. Benchmarks clínicos fornecem avaliações úteis das capacidades dos LLMs em saúde antes que ensaios clínicos possam ser planejados e conduzidos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Arun James Thirunavukarasu
Shathar Mahmood
Andrew Malem
PLOS Digital Health
Stanford University
University of Oxford
University of Cambridge
Building similarity graph...
Analyzing shared references across papers
Loading...
Thirunavukarasu et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e6eabeb6db643587665af8 — DOI: https://doi.org/10.1371/journal.pdig.0000341
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: