What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

视觉-语言模型中的动态多模态原型学习

Key Points

ProtoMM通过测试时动态更新视觉粒子，提高准确率，有效解决关键限制。
我们的方法在15个零样本基准上比现有最先进方法平均提高1.03%的准确率。
该框架构建能捕捉复杂视觉概念、减少文本描述中语义模糊的多模态原型。
该方法将语义距离建模为最优传输问题，增强视觉-语言模型的整体效能和适应性。

Abstract

随着预训练视觉-语言模型（VLMs），如CLIP，受到越来越多关注，许多下游任务特别是测试时适应（TTA）方面投入了大量努力。然而，先前的工作仅关注于在文本模态中学习原型，忽视了类别名称中存在的语义模糊。这些模糊导致文本原型不足以捕捉视觉概念，影响性能表现。为了解决此问题，我们提出ProtoMM，一个无需训练的框架，在测试时构建多模态原型以适应VLMs。通过将原型视为文本描述和视觉粒子上的离散分布，ProtoMM能够融合多模态特征，实现全面的原型学习。更重要的是，视觉粒子会随着测试流动态更新，使我们的多模态原型能持续从数据中学习，提升其在未知场景中的泛化能力。此外，我们通过将原型与测试图像的语义距离建模为最优传输问题来量化其重要性。在15个零样本基准实验中，方法表现卓越，在ImageNet及其变体数据集上实现了比现有最先进方法平均提高1.03%的准确率。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Zhu等人（Fri,）研究了这一问题。

www.synapsesocial.com/papers/68f5fcdc8d54a28a75cf25d2 — DOI: https://doi.org/10.48550/arxiv.2507.03657

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Authors

Xingyu Zhu

Shuo Wang

Beier Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

视觉-语言模型中的动态多模态原型学习

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion