December 6, 2025Open Access

Automatizando a avaliação do raciocínio médico em nível especializado de grandes modelos de linguagem

Key Points

Estrutura de avaliação aprimora a qualidade do raciocínio médico na prática clínica, possibilitando uma melhor tomada de decisão.
A escalabilidade é um fator crítico, requerendo apenas 1,4% do tempo de avaliação comparado a métodos tradicionais.
Este estudo apresenta o MedThink-Bench como um referencial abrangente para avaliação de grandes modelos de linguagem.
Nova estratégia de avaliação enfatiza avaliação rigorosa para garantir o uso confiável dos LLMs em contextos clínicos.

Abstract

Resumo À medida que grandes modelos de linguagem (LLMs) se tornam cada vez mais integrados à tomada de decisão clínica, garantir um raciocínio confiável é fundamental. No entanto, as estratégias atuais de avaliação da capacidade de raciocínio médico dos LLMs sofrem de avaliações insatisfatórias ou baixa escalabilidade, e um referencial rigoroso ainda está ausente. Para resolver isso, apresentamos o MedThink-Bench, um referencial criado para avaliação rigorosa e escalável do raciocínio médico dos LLMs. O MedThink-Bench compreende 500 perguntas de alta complexidade abrangendo dez áreas médicas, acompanhadas por raciocínios passo a passo elaborados por especialistas que elucidam processos intermediários de raciocínio. Além disso, introduzimos o LLM-w-Rationale, uma estrutura de avaliação que combina avaliação detalhada do raciocínio com um paradigma LLM-como-Juiz, possibilitando fidelidade em nível especialista na avaliação da qualidade do raciocínio, preservando a escalabilidade. Os resultados mostram que o LLM-w-Rationale se correlaciona fortemente com a avaliação especializada (coeficiente de Pearson de até 0,87), requerendo apenas 1,4% do tempo de avaliação. No geral, o MedThink-Bench estabelece um padrão rigoroso e escalável para avaliar o raciocínio médico em LLMs, avançando para sua implantação segura e responsável na prática clínica.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuang Zhou

Wenya Xie

Jiaxi Li

Journals

npj Digital Medicine

Actions

Institutions

Columbia University

University of California, San Francisco

University of Minnesota

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Automatizando a avaliação do raciocínio médico em nível especializado de grandes modelos de linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider