January 14, 2025Open Access

Los modelos de lenguaje grandes carecen de metacognición esencial para un razonamiento médico confiable

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje grandes han demostrado una precisión a nivel experto en exámenes de certificación médica, lo que sugiere potencial para sistemas de apoyo a la toma de decisiones clínicas. Sin embargo, sus habilidades metacognitivas, cruciales para la toma de decisiones médicas, permanecen en gran medida inexploradas. Para abordar esta brecha, desarrollamos MetaMedQA, un punto de referencia que incorpora puntajes de confianza y tareas metacognitivas en preguntas médicas de opción múltiple. Evaluamos doce modelos en dimensiones incluyendo precisión basada en la confianza, recuperación de respuestas ausentes y recuperación de desconocidos. A pesar de la alta precisión en preguntas de opción múltiple, nuestro estudio reveló deficiencias metacognitivas significativas en todos los modelos evaluados. Los modelos consistentemente no reconocieron sus limitaciones de conocimiento y proporcionaron respuestas con confianza incluso cuando faltaban opciones correctas. En este trabajo, mostramos que los modelos actuales exhiben una desconexión crítica entre las capacidades percibidas y reales en el razonamiento médico, lo que representa riesgos significativos en entornos clínicos. Nuestros hallazgos enfatizan la necesidad de marcos de evaluación más robustos que incorporen habilidades metacognitivas, esenciales para desarrollar sistemas confiables de apoyo a la toma de decisiones clínicas potenciados por modelos de lenguaje grandes.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Maxime Griot

Coralie Hemptinne

Jean Vanderdonckt

Journals

Nature Communications

Actions

Institutions

UCLouvain

Cliniques Universitaires Saint-Luc

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Los modelos de lenguaje grandes carecen de metacognición esencial para un razonamiento médico confiable

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider