Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje grandes han demostrado una precisión a nivel experto en exámenes de certificación médica, lo que sugiere potencial para sistemas de apoyo a la toma de decisiones clínicas. Sin embargo, sus habilidades metacognitivas, cruciales para la toma de decisiones médicas, permanecen en gran medida inexploradas. Para abordar esta brecha, desarrollamos MetaMedQA, un punto de referencia que incorpora puntajes de confianza y tareas metacognitivas en preguntas médicas de opción múltiple. Evaluamos doce modelos en dimensiones incluyendo precisión basada en la confianza, recuperación de respuestas ausentes y recuperación de desconocidos. A pesar de la alta precisión en preguntas de opción múltiple, nuestro estudio reveló deficiencias metacognitivas significativas en todos los modelos evaluados. Los modelos consistentemente no reconocieron sus limitaciones de conocimiento y proporcionaron respuestas con confianza incluso cuando faltaban opciones correctas. En este trabajo, mostramos que los modelos actuales exhiben una desconexión crítica entre las capacidades percibidas y reales en el razonamiento médico, lo que representa riesgos significativos en entornos clínicos. Nuestros hallazgos enfatizan la necesidad de marcos de evaluación más robustos que incorporen habilidades metacognitivas, esenciales para desarrollar sistemas confiables de apoyo a la toma de decisiones clínicas potenciados por modelos de lenguaje grandes.
Building similarity graph...
Analyzing shared references across papers
Loading...
Maxime Griot
Coralie Hemptinne
Jean Vanderdonckt
Nature Communications
UCLouvain
Cliniques Universitaires Saint-Luc
Building similarity graph...
Analyzing shared references across papers
Loading...
Griot et al. (mar,) estudiaron esta cuestión.
www.synapsesocial.com/papers/6a03ad542ca770c848de06bb — DOI: https://doi.org/10.1038/s41467-024-55628-6
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: