Key points are not available for this paper at this time.
我们提出了ImageBind,一种学习跨六种不同模态——图像、文本、音频、深度、热成像和IMU数据——的联合嵌入的方法。我们展示了并非所有配对数据组合均需用于训练这种联合嵌入,只有图像配对数据就足以将模态绑定在一起。ImageBind能够利用最近的大规模视觉-语言模型,并通过利用它们与图像的自然配对,将其零样本能力扩展到新的模态。它实现了新颖的开箱即用的能力,包括跨模态检索、通过算术组合模态、跨模态检测和生成。这些新兴能力随着图像编码器的能力增强而提升,我们在多模态的新兴零样本识别任务上创造了新的最先进水平,超过了专业监督模型。最后,我们展示了强劲的少样本识别结果,超过了之前的工作,并且ImageBind成为了评估视觉模型在视觉及非视觉任务中的新方式。
Building similarity graph...
Analyzing shared references across papers
Loading...
Rohit Girdhar
Alaaeldin El-Nouby
Zhuang Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Girdhar等人(周四,)研究了这个问题。
www.synapsesocial.com/papers/69dab430615cc0c8eaa3d097 — DOI: https://doi.org/10.1109/cvpr52729.2023.01457
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: