September 1, 2024

Leistung von GPT-4 mit Vision bei text- und bildbasierten ACR-Diagnostikradiologie-Prüfungsfragen für die Weiterbildung

Key Points

Key points are not available for this paper at this time.

Abstract

Hintergrund Jüngste Fortschritte, einschließlich Bildverarbeitungsfähigkeiten, eröffnen neue potenzielle Anwendungen großer Sprachmodelle wie ChatGPT (OpenAI), einem generativen vortrainierten Transformer, in der Radiologie. Die Grundleistungsfähigkeit von ChatGPT bei radiologierelevanten Aufgaben ist jedoch wenig untersucht. Zweck Bewertung der Leistung von GPT-4 mit Vision (GPT-4V) bei radiologischen Weiterbildungsprüfungsfragen, einschließlich solcher mit Bildern, um das Basisknow-how des Modells in der Radiologie zu messen. Materialien und Methoden In dieser prospektiven Studie, durchgeführt zwischen September 2023 und März 2024, wurde die September-2023-Version von GPT-4V anhand von 386 zurückgezogenen Prüfungsfragen (189 bildbasiert und 197 nur Text) aus den American College of Radiology Diagnostic Radiology In-Training Examinations bewertet. Neun Fragenpaare wurden als Duplikate identifiziert; nur die erste Instanz jedes Duplikats wurde für die Bewertung von ChatGPT berücksichtigt. Eine Subanalyse untersuchte den Einfluss unterschiedlicher Zero-Shot-Prompts auf die Leistung. Statistische Analysen umfassten χ2-Unabhängigkeitstests zur Feststellung, ob die Leistung von GPT-4V zwischen Fragetypen oder Subspezialitäten variierte. Der McNemar-Test wurde verwendet, um Leistungsunterschiede zwischen den Prompts zu evaluieren, wobei die Benjamin-Hochberg-Anpassung der P-Werte zur Kontrolle der Falschentdeckungsrate (FDR) durchgeführt wurde. Ein P-Wert von weniger als 0,05 galt als statistisch signifikant. Ergebnisse GPT-4V beantwortete 246 (65,3 %) der 377 einzigartigen Fragen korrekt, mit signifikant höherer Genauigkeit bei rein textbasierten Fragen (81,5 %, 159 von 195) im Vergleich zu bildbasierten Fragen (47,8 %, 87 von 182) (χ2-Test, P < 0,001). Schlussfolgerung Während GPT-4V bei textbasierten Fragen eine angemessene Kompetenz zeigte, wies es Defizite bei der Interpretation radiologischer Bilder auf. © RSNA, 2024 Siehe auch das Editorial von Deng in dieser Ausgabe.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Nolan Hayden

Spencer Gilbert

Laila Poisson

Journals

Radiology

Actions

Institutions

Michigan State University

Henry Ford Health + Michigan State University Health Sciences

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Leistung von GPT-4 mit Vision bei text- und bildbasierten ACR-Diagnostikradiologie-Prüfungsfragen für die Weiterbildung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider