What question did this study set out to answer?

Diese Studie untersucht die diagnostischen Fähigkeiten großer Sprachmodelle bei klinischen Denkaufgaben.

April 15, 2026Open Access

Leistung großer Sprachmodelle und klinische Denkaufgaben

Key Points

Diese Studie untersucht die diagnostischen Fähigkeiten großer Sprachmodelle bei klinischen Denkaufgaben.
Querschnittsstudie zur Bewertung von 21 großen Sprachmodellen
Vergleich der Genauigkeit der abschließenden Diagnose mit der Erstellung von Differentialdiagnosen
Nutzung des PrIME-LLM-Rahmenwerks zur Bewertung
Fortschrittliche große Sprachmodelle erzielten eine hohe Genauigkeit bei abschließenden Diagnosen
Schlechte Leistung bei der Generierung von Differentialdiagnosen und im Umgang mit Unsicherheit
Das PrIME-LLM-Rahmenwerk zeigte kritische Denkdefizite auf, die traditionelle Metriken nicht erfassten

Abstract

In dieser Querschnittsstudie von 21 LLMs erzielten fortschrittliche LLMs eine hohe Genauigkeit bei der abschließenden Diagnosestellung, zeigten jedoch eine schlechte Leistung bei der Erstellung von Differentialdiagnosen und beim Umgang mit Unsicherheit im Vergleich zu anderen Denkphasen. Das PrIME-LLM-Rahmenwerk bot eine stärkere Differenzierung als die Rohgenauigkeit und zeigte kritische Denklücken auf, die durch traditionelle Benchmarks verborgen bleiben. Trotz versionsbasierter Verbesserungen und Vorteilen bei auf Denkprozesse optimierten Modellen haben handelsübliche LLMs noch nicht die für einen sicheren Einsatz erforderliche Intelligenz erreicht und sind weiterhin eingeschränkt in der Demonstration fortgeschrittener klinischer Denkfähigkeit.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Arya S. Rao

Kaiz P. Esmail

Richard S. Lee

Journals

JAMA Network Open

Actions

Institutions

Harvard University

Brigham and Women's Hospital

Massachusetts General Hospital

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Leistung großer Sprachmodelle und klinische Denkaufgaben

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study