What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

FunBench：多模态大语言模型（MLLMs）眼底图像解读能力基准测试

Key Points

FunBench揭示了MLLMs在眼底阅读能力上的显著不足，尤其是在基础任务方面。
实验显示MLLMs在侧别识别上表现不佳，突出评估的不足之处。
该基准测试采用四级层次任务组织，全面评估MLLMs能力。
迫切需要改进大型语言模型和视觉编码器，以实现有效的眼底图像分析。

Abstract

多模态大语言模型（MLLMs）在医学图像分析方面展现出显著潜力。然而，它们在解读眼底图像这一眼科关键技能上的能力仍未得到充分评估。现有基准测试缺乏细粒度任务划分，且未能对两个关键模块——大型语言模型（LLM）和视觉编码器（VE）进行模块化分析。本文提出了FunBench，一种新颖的视觉问答（VQA）基准，旨在全面评估MLLMs的眼底阅读技能。FunBench采用四级层次任务组织（模态感知、解剖感知、病变分析和疾病诊断），并提供三种针对性评估模式：基于线性探针的VE评估、知识提示的LLM评估以及整体评估。对九个开源MLLMs和GPT-4o的实验表明其在眼底阅读技能上存在显著不足，尤其是在侧别识别等基础任务中。结果凸显了当前MLLM的局限性，强调了领域特定训练以及LLM和VE改进的必要性。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qijie Wei

Kui Qian

Xirong Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FunBench：多模态大语言模型（MLLMs）眼底图像解读能力基准测试

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider