Key points are not available for this paper at this time.
多模态大型语言模型(LLMs)现已深度融入医学教育并被医学生广泛使用,但目前尚不清楚现有模型是否具备支持基于图像的学习所需的准确性和可靠性。我们评估了四个最先进的多模态LLMs(ChatGPT-5.1、Gemini-2.5、Grok-4、Claude Sonnet-4.5)对来自医学博士项目的208个基于图像的考试题目,这些题目涵盖了解剖病理学(组织病理学;47.6%)、放射学(31.7%)和外科解剖学(20.7%)。为隔离视觉推理,所有题目均以仅图像形式呈现,去除上下文信息。题目涵盖七大器官系统,包括构造性回答和选择性回答两种形式,且被分类为仅识别和识别加推理。ChatGPT-5.1达到了最高准确率(75.5%;95% CI 69.2-80.8),其次是Gemini-2.5(59.6%;95% CI 52.8-66.1)、Claude Sonnet-4.5(41.8%;95% CI 35.3-48.6)和Grok-4(34.6%;95% CI 28.5-41.3)。整体模型表现存在显著差异(p Gemini > Claude ≈ Grok),在不同类别之间表现不同。仅识别和选择性回答题的准确率均更高。即使是表现最好的模型ChatGPT-5.1,也约有四分之一的问题答错。结果表明,目前的多模态LLMs尚不能替代专家教学进行基于图像的学习。因此,在医学教育中的使用应保持监督和批判性评估,充当辅助而非权威资源。
Building similarity graph...
Analyzing shared references across papers
Loading...
Ming Lu
Josiah Cheng
Vinod Gopalan
Anatomical Sciences Education
Griffith University
Gold Coast Hospital
Logan Hospital
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu 等人(周三)研究了这个问题。
www.synapsesocial.com/papers/6a06b914e7dec685947ab91a — DOI: https://doi.org/10.1002/ase.70256
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: