In dieser Querschnittsstudie von 21 LLMs erzielten fortschrittliche LLMs eine hohe Genauigkeit bei der abschließenden Diagnosestellung, zeigten jedoch eine schlechte Leistung bei der Erstellung von Differentialdiagnosen und beim Umgang mit Unsicherheit im Vergleich zu anderen Denkphasen. Das PrIME-LLM-Rahmenwerk bot eine stärkere Differenzierung als die Rohgenauigkeit und zeigte kritische Denklücken auf, die durch traditionelle Benchmarks verborgen bleiben. Trotz versionsbasierter Verbesserungen und Vorteilen bei auf Denkprozesse optimierten Modellen haben handelsübliche LLMs noch nicht die für einen sicheren Einsatz erforderliche Intelligenz erreicht und sind weiterhin eingeschränkt in der Demonstration fortgeschrittener klinischer Denkfähigkeit.
Building similarity graph...
Analyzing shared references across papers
Loading...
Arya S. Rao
Kaiz P. Esmail
Richard S. Lee
JAMA Network Open
Harvard University
Brigham and Women's Hospital
Massachusetts General Hospital
Building similarity graph...
Analyzing shared references across papers
Loading...
Rao et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69df2b85e4eeef8a2a6b070b — DOI: https://doi.org/10.1001/jamanetworkopen.2026.4003