What question did this study set out to answer?

Diese Forschung zielt darauf ab, die Leistungsfähigkeit großer Sprachmodelle im Vergleich zu traditionellen Methoden bei klinischen Vorhersageaufgaben zu bewerten.

April 10, 2026Open Access

ClinicRealm: Neubewertung großer Sprachmodelle mit konventionellem maschinellen Lernen für nicht-generative klinische Vorhersageaufgaben

Key Points

Diese Forschung zielt darauf ab, die Leistungsfähigkeit großer Sprachmodelle im Vergleich zu traditionellen Methoden bei klinischen Vorhersageaufgaben zu bewerten.
Benchmark-Analyse von 15 GPT-ähnlichen und 5 BERT-ähnlichen Modellen
Evaluierung von 11 konventionellen Methoden des maschinellen Lernens
Verwendung unstrukturierter klinischer Notizen und strukturierter elektronischer Gesundheitsakten für Tests
Fokus auf Vorhersageleistung, Schlussfolgerungen und Fairness-Metriken
Führende Zero-Shot-LLMs übertreffen feinabgestimmte BERT-Modelle bei klinischen Notizen
Fortgeschrittene LLMs zeigen starke Zero-Shot-Leistung in datenarmen Umgebungen
Open-Source-LLMs erzielen vergleichbare Leistungen zu proprietären Modellen bei klinischen Aufgaben

Abstract

Abstract Große Sprachmodelle (LLMs) werden immer häufiger in der Medizin eingesetzt. Ihre Nützlichkeit für nicht-generative klinische Vorhersagen ist jedoch unterbewertet, und sie werden oft fälschlicherweise als unterlegen gegenüber spezialisierten Modellen angesehen, was zu möglichem Missbrauch und Missverständnissen führen kann. Zur Lösung dieses Problems bewertet unser ClinicRealm-Benchmark systematisch 15 GPT-ähnliche LLMs, 5 BERT-ähnliche Modelle und 11 traditionelle Methoden anhand unstrukturierter klinischer Notizen und strukturierter elektronischer Gesundheitsakten (EHR) bezüglich Vorhersageleistung, Schlussfolgerungen, Fairness usw. Unsere Ergebnisse zeigen eine signifikante Veränderung: Bei klinischen Notizen übertreffen führende Zero-Shot-LLMs (z. B. DeepSeek-V3.1-Think, GPT-5) inzwischen eindeutig feinabgestimmte BERT-Modelle. Bei strukturierten EHRs zeigen spezialisierte Modelle bei viel Daten exzellente Leistungen, während fortgeschrittene LLMs potente Zero-Shot-Fähigkeiten demonstrieren und in datenarmen Situationen oft konventionelle Modelle übertreffen. Bemerkenswerterweise erreichen führende Open-Source-LLMs Leistungen, die mit denen proprietärer Modelle vergleichbar oder besser sind. Dies liefert überzeugende Belege dafür, dass moderne LLMs wettbewerbsfähige Werkzeuge für klinische Vorhersagen sind und erfordert eine Neubewertung von Modellauswahlstrategien für Gesundheitsdatenwissenschaftler und Entwickler.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yinghao Zhu

Junyi Gao

Zixiang Wang

Journals

npj Digital Medicine

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ClinicRealm: Neubewertung großer Sprachmodelle mit konventionellem maschinellen Lernen für nicht-generative klinische Vorhersageaufgaben

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study