May 15, 2026Open Access

多模态大型语言模型在基于图像的外科解剖学、解剖病理学和放射学问题上的表现

Key Points

Key points are not available for this paper at this time.

Abstract

多模态大型语言模型（LLMs）现已深度融入医学教育并被医学生广泛使用，但目前尚不清楚现有模型是否具备支持基于图像的学习所需的准确性和可靠性。我们评估了四个最先进的多模态LLMs（ChatGPT-5.1、Gemini-2.5、Grok-4、Claude Sonnet-4.5）对来自医学博士项目的208个基于图像的考试题目，这些题目涵盖了解剖病理学（组织病理学；47.6%）、放射学（31.7%）和外科解剖学（20.7%）。为隔离视觉推理，所有题目均以仅图像形式呈现，去除上下文信息。题目涵盖七大器官系统，包括构造性回答和选择性回答两种形式，且被分类为仅识别和识别加推理。ChatGPT-5.1达到了最高准确率（75.5%；95% CI 69.2-80.8），其次是Gemini-2.5（59.6%；95% CI 52.8-66.1）、Claude Sonnet-4.5（41.8%；95% CI 35.3-48.6）和Grok-4（34.6%；95% CI 28.5-41.3）。整体模型表现存在显著差异（p Gemini > Claude ≈ Grok），在不同类别之间表现不同。仅识别和选择性回答题的准确率均更高。即使是表现最好的模型ChatGPT-5.1，也约有四分之一的问题答错。结果表明，目前的多模态LLMs尚不能替代专家教学进行基于图像的学习。因此，在医学教育中的使用应保持监督和批判性评估，充当辅助而非权威资源。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ming Lu

Josiah Cheng

Vinod Gopalan

Journals

Anatomical Sciences Education

Actions

Institutions

Griffith University

Gold Coast Hospital

Logan Hospital

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

多模态大型语言模型在基于图像的外科解剖学、解剖病理学和放射学问题上的表现

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider