Resumo À medida que grandes modelos de linguagem (LLMs) se tornam cada vez mais integrados à tomada de decisão clínica, garantir um raciocínio confiável é fundamental. No entanto, as estratégias atuais de avaliação da capacidade de raciocínio médico dos LLMs sofrem de avaliações insatisfatórias ou baixa escalabilidade, e um referencial rigoroso ainda está ausente. Para resolver isso, apresentamos o MedThink-Bench, um referencial criado para avaliação rigorosa e escalável do raciocínio médico dos LLMs. O MedThink-Bench compreende 500 perguntas de alta complexidade abrangendo dez áreas médicas, acompanhadas por raciocínios passo a passo elaborados por especialistas que elucidam processos intermediários de raciocínio. Além disso, introduzimos o LLM-w-Rationale, uma estrutura de avaliação que combina avaliação detalhada do raciocínio com um paradigma LLM-como-Juiz, possibilitando fidelidade em nível especialista na avaliação da qualidade do raciocínio, preservando a escalabilidade. Os resultados mostram que o LLM-w-Rationale se correlaciona fortemente com a avaliação especializada (coeficiente de Pearson de até 0,87), requerendo apenas 1,4% do tempo de avaliação. No geral, o MedThink-Bench estabelece um padrão rigoroso e escalável para avaliar o raciocínio médico em LLMs, avançando para sua implantação segura e responsável na prática clínica.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuang Zhou
Wenya Xie
Jiaxi Li
npj Digital Medicine
Columbia University
University of California, San Francisco
University of Minnesota
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (sáb,) estudaram esta questão.
www.synapsesocial.com/papers/694020fd2d562116f28fb4eb — DOI: https://doi.org/10.1038/s41746-025-02208-7
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: