Abstract Große Sprachmodelle (LLMs) werden immer häufiger in der Medizin eingesetzt. Ihre Nützlichkeit für nicht-generative klinische Vorhersagen ist jedoch unterbewertet, und sie werden oft fälschlicherweise als unterlegen gegenüber spezialisierten Modellen angesehen, was zu möglichem Missbrauch und Missverständnissen führen kann. Zur Lösung dieses Problems bewertet unser ClinicRealm-Benchmark systematisch 15 GPT-ähnliche LLMs, 5 BERT-ähnliche Modelle und 11 traditionelle Methoden anhand unstrukturierter klinischer Notizen und strukturierter elektronischer Gesundheitsakten (EHR) bezüglich Vorhersageleistung, Schlussfolgerungen, Fairness usw. Unsere Ergebnisse zeigen eine signifikante Veränderung: Bei klinischen Notizen übertreffen führende Zero-Shot-LLMs (z. B. DeepSeek-V3.1-Think, GPT-5) inzwischen eindeutig feinabgestimmte BERT-Modelle. Bei strukturierten EHRs zeigen spezialisierte Modelle bei viel Daten exzellente Leistungen, während fortgeschrittene LLMs potente Zero-Shot-Fähigkeiten demonstrieren und in datenarmen Situationen oft konventionelle Modelle übertreffen. Bemerkenswerterweise erreichen führende Open-Source-LLMs Leistungen, die mit denen proprietärer Modelle vergleichbar oder besser sind. Dies liefert überzeugende Belege dafür, dass moderne LLMs wettbewerbsfähige Werkzeuge für klinische Vorhersagen sind und erfordert eine Neubewertung von Modellauswahlstrategien für Gesundheitsdatenwissenschaftler und Entwickler.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yinghao Zhu
Junyi Gao
Zixiang Wang
npj Digital Medicine
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Mittwoch,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69d895d86c1944d70ce06f67 — DOI: https://doi.org/10.1038/s41746-026-02539-z