March 20, 2023Open Access

Capacités de GPT-4 sur des problèmes médicaux complexes

Key Points

Key points are not available for this paper at this time.

Abstract

Les grands modèles de langage (LLM) ont démontré des capacités remarquables en compréhension et génération de langage naturel dans divers domaines, y compris la médecine. Nous présentons une évaluation complète de GPT-4, un LLM de pointe, sur des examens de compétence médicale et des jeux de données de référence. GPT-4 est un modèle polyvalent qui n'est pas spécialisé pour les problèmes médicaux par un entraînement ciblé ni conçu pour résoudre des tâches cliniques. Notre analyse couvre deux ensembles de matériels d'entraînement officiels pour l'USMLE, un programme d'examen en trois étapes utilisé pour évaluer la compétence clinique et délivrer des licences aux États-Unis. Nous évaluons également les performances sur la suite de jeux de données de référence MultiMedQA. Au-delà de la mesure des performances du modèle, des expériences ont été menées pour étudier l'influence des questions de test contenant à la fois du texte et des images sur les performances du modèle, vérifier la mémorisation du contenu durant l'entraînement et étudier la calibration des probabilités, critique dans les applications à enjeux élevés comme la médecine. Nos résultats montrent que GPT-4, sans aucune mise au point spécialisée des incitations, dépasse le score de réussite à l'USMLE de plus de 20 points et surpasse les modèles polyvalents antérieurs (GPT-3.5) ainsi que des modèles spécifiquement affinés sur les connaissances médicales (Med-PaLM, une version adaptée par incitation de Flan-PaLM 540B). De plus, GPT-4 est significativement mieux calibré que GPT-3.5, démontrant une capacité nettement améliorée à prédire la probabilité que ses réponses soient correctes. Nous explorons aussi qualitativement le comportement du modèle via une étude de cas montrant la capacité de GPT-4 à expliquer le raisonnement médical, personnaliser les explications aux étudiants, et élaborer de manière interactive de nouveaux scénarios contrefactuels autour d'un cas médical. Les implications des résultats sont discutées concernant les usages potentiels de GPT-4 dans l'éducation médicale, l'évaluation et la pratique clinique, avec une attention appropriée aux défis d'exactitude et de sécurité.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Harsha Nori

Nicholas King

Scott Mayer McKinney

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Capacités de GPT-4 sur des problèmes médicaux complexes

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study