多模态大语言模型(MLLMs)在医学图像分析方面展现出显著潜力。然而,它们在解读眼底图像这一眼科关键技能上的能力仍未得到充分评估。现有基准测试缺乏细粒度任务划分,且未能对两个关键模块——大型语言模型(LLM)和视觉编码器(VE)进行模块化分析。本文提出了FunBench,一种新颖的视觉问答(VQA)基准,旨在全面评估MLLMs的眼底阅读技能。FunBench采用四级层次任务组织(模态感知、解剖感知、病变分析和疾病诊断),并提供三种针对性评估模式:基于线性探针的VE评估、知识提示的LLM评估以及整体评估。对九个开源MLLMs和GPT-4o的实验表明其在眼底阅读技能上存在显著不足,尤其是在侧别识别等基础任务中。结果凸显了当前MLLM的局限性,强调了领域特定训练以及LLM和VE改进的必要性。
Building similarity graph...
Analyzing shared references across papers
Loading...
Qijie Wei
Kui Qian
Xirong Li
Building similarity graph...
Analyzing shared references across papers
Loading...
魏等人(Sun,)研究了这一问题。
www.synapsesocial.com/papers/68ecc715d1cc7436f7d18c2d — DOI: https://doi.org/10.48550/arxiv.2503.00901
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: