Key points are not available for this paper at this time.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables en compréhension et génération de langage naturel dans divers domaines, y compris la médecine. Nous présentons une évaluation complète de GPT-4, un LLM de pointe, sur des examens de compétence médicale et des jeux de données de référence. GPT-4 est un modèle polyvalent qui n'est pas spécialisé pour les problèmes médicaux par un entraînement ciblé ni conçu pour résoudre des tâches cliniques. Notre analyse couvre deux ensembles de matériels d'entraînement officiels pour l'USMLE, un programme d'examen en trois étapes utilisé pour évaluer la compétence clinique et délivrer des licences aux États-Unis. Nous évaluons également les performances sur la suite de jeux de données de référence MultiMedQA. Au-delà de la mesure des performances du modèle, des expériences ont été menées pour étudier l'influence des questions de test contenant à la fois du texte et des images sur les performances du modèle, vérifier la mémorisation du contenu durant l'entraînement et étudier la calibration des probabilités, critique dans les applications à enjeux élevés comme la médecine. Nos résultats montrent que GPT-4, sans aucune mise au point spécialisée des incitations, dépasse le score de réussite à l'USMLE de plus de 20 points et surpasse les modèles polyvalents antérieurs (GPT-3.5) ainsi que des modèles spécifiquement affinés sur les connaissances médicales (Med-PaLM, une version adaptée par incitation de Flan-PaLM 540B). De plus, GPT-4 est significativement mieux calibré que GPT-3.5, démontrant une capacité nettement améliorée à prédire la probabilité que ses réponses soient correctes. Nous explorons aussi qualitativement le comportement du modèle via une étude de cas montrant la capacité de GPT-4 à expliquer le raisonnement médical, personnaliser les explications aux étudiants, et élaborer de manière interactive de nouveaux scénarios contrefactuels autour d'un cas médical. Les implications des résultats sont discutées concernant les usages potentiels de GPT-4 dans l'éducation médicale, l'évaluation et la pratique clinique, avec une attention appropriée aux défis d'exactitude et de sécurité.
Building similarity graph...
Analyzing shared references across papers
Loading...
Harsha Nori
Nicholas King
Scott Mayer McKinney
Building similarity graph...
Analyzing shared references across papers
Loading...
Nori et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/6a08c2138bd2868868ba024d — DOI: https://doi.org/10.48550/arxiv.2303.13375