Key points are not available for this paper at this time.
Hintergrund Jüngste Fortschritte, einschließlich Bildverarbeitungsfähigkeiten, eröffnen neue potenzielle Anwendungen großer Sprachmodelle wie ChatGPT (OpenAI), einem generativen vortrainierten Transformer, in der Radiologie. Die Grundleistungsfähigkeit von ChatGPT bei radiologierelevanten Aufgaben ist jedoch wenig untersucht. Zweck Bewertung der Leistung von GPT-4 mit Vision (GPT-4V) bei radiologischen Weiterbildungsprüfungsfragen, einschließlich solcher mit Bildern, um das Basisknow-how des Modells in der Radiologie zu messen. Materialien und Methoden In dieser prospektiven Studie, durchgeführt zwischen September 2023 und März 2024, wurde die September-2023-Version von GPT-4V anhand von 386 zurückgezogenen Prüfungsfragen (189 bildbasiert und 197 nur Text) aus den American College of Radiology Diagnostic Radiology In-Training Examinations bewertet. Neun Fragenpaare wurden als Duplikate identifiziert; nur die erste Instanz jedes Duplikats wurde für die Bewertung von ChatGPT berücksichtigt. Eine Subanalyse untersuchte den Einfluss unterschiedlicher Zero-Shot-Prompts auf die Leistung. Statistische Analysen umfassten χ2-Unabhängigkeitstests zur Feststellung, ob die Leistung von GPT-4V zwischen Fragetypen oder Subspezialitäten variierte. Der McNemar-Test wurde verwendet, um Leistungsunterschiede zwischen den Prompts zu evaluieren, wobei die Benjamin-Hochberg-Anpassung der P-Werte zur Kontrolle der Falschentdeckungsrate (FDR) durchgeführt wurde. Ein P-Wert von weniger als 0,05 galt als statistisch signifikant. Ergebnisse GPT-4V beantwortete 246 (65,3 %) der 377 einzigartigen Fragen korrekt, mit signifikant höherer Genauigkeit bei rein textbasierten Fragen (81,5 %, 159 von 195) im Vergleich zu bildbasierten Fragen (47,8 %, 87 von 182) (χ2-Test, P < 0,001). Schlussfolgerung Während GPT-4V bei textbasierten Fragen eine angemessene Kompetenz zeigte, wies es Defizite bei der Interpretation radiologischer Bilder auf. © RSNA, 2024 Siehe auch das Editorial von Deng in dieser Ausgabe.
Building similarity graph...
Analyzing shared references across papers
Loading...
Nolan Hayden
Spencer Gilbert
Laila Poisson
Radiology
Michigan State University
Henry Ford Health + Michigan State University Health Sciences
Building similarity graph...
Analyzing shared references across papers
Loading...
Hayden et al. (Sun,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e59b44b6db6435875364ca — DOI: https://doi.org/10.1148/radiol.240153
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: