What question did this study set out to answer?

This study examines the diagnostic capabilities of large language models in clinical reasoning tasks.

April 15, 2026Open Access

Large Language Model Performance and Clinical Reasoning Tasks

Key Points

This study examines the diagnostic capabilities of large language models in clinical reasoning tasks.
Cross-sectional design assessing 21 large language models
Comparison of final diagnosis accuracy against differential diagnosis generation
Utilization of the PrIME-LLM framework for evaluation
Frontier large language models achieved high accuracy on final diagnoses
Performance was poor in generating differential diagnoses and handling uncertainty
The PrIME-LLM framework revealed critical reasoning gaps not identified by traditional metrics

Abstract

In this cross-sectional study of 21 LLMs, frontier LLMs achieved high accuracy on final diagnoses but performed poorly in generating differential diagnoses and navigating uncertainty relative to other reasoning stages. The PrIME-LLM framework provided greater separation than raw accuracy, revealing critical reasoning gaps obscured by traditional benchmarks. Thus, despite version-based improvements and advantages in reasoning-optimized models, off-the-shelf LLMs have not yet achieved the intelligence required for safe deployment and remain limited in demonstrating advanced clinical reasoning.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Arya S. Rao

Kaiz P. Esmail

Richard S. Lee

Journals

JAMA Network Open

Actions

Institutions

Harvard University

Brigham and Women's Hospital

Massachusetts General Hospital

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Large Language Model Performance and Clinical Reasoning Tasks

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study