随着预训练视觉-语言模型(VLMs),如CLIP,受到越来越多关注,许多下游任务特别是测试时适应(TTA)方面投入了大量努力。然而,先前的工作仅关注于在文本模态中学习原型,忽视了类别名称中存在的语义模糊。这些模糊导致文本原型不足以捕捉视觉概念,影响性能表现。为了解决此问题,我们提出ProtoMM,一个无需训练的框架,在测试时构建多模态原型以适应VLMs。通过将原型视为文本描述和视觉粒子上的离散分布,ProtoMM能够融合多模态特征,实现全面的原型学习。更重要的是,视觉粒子会随着测试流动态更新,使我们的多模态原型能持续从数据中学习,提升其在未知场景中的泛化能力。此外,我们通过将原型与测试图像的语义距离建模为最优传输问题来量化其重要性。在15个零样本基准实验中,方法表现卓越,在ImageNet及其变体数据集上实现了比现有最先进方法平均提高1.03%的准确率。
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu等人(Fri,)研究了这一问题。
www.synapsesocial.com/papers/68f5fcdc8d54a28a75cf25d2 — DOI: https://doi.org/10.48550/arxiv.2507.03657
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Xingyu Zhu
Shuo Wang
Beier Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...