June 1, 2023

ImageBind——统一嵌入空间，绑定所有模态

Key Points

Key points are not available for this paper at this time.

Abstract

我们提出了ImageBind，一种学习跨六种不同模态——图像、文本、音频、深度、热成像和IMU数据——的联合嵌入的方法。我们展示了并非所有配对数据组合均需用于训练这种联合嵌入，只有图像配对数据就足以将模态绑定在一起。ImageBind能够利用最近的大规模视觉-语言模型，并通过利用它们与图像的自然配对，将其零样本能力扩展到新的模态。它实现了新颖的开箱即用的能力，包括跨模态检索、通过算术组合模态、跨模态检测和生成。这些新兴能力随着图像编码器的能力增强而提升，我们在多模态的新兴零样本识别任务上创造了新的最先进水平，超过了专业监督模型。最后，我们展示了强劲的少样本识别结果，超过了之前的工作，并且ImageBind成为了评估视觉模型在视觉及非视觉任务中的新方式。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rohit Girdhar

Alaaeldin El-Nouby

Zhuang Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Girdhar等人（周四，）研究了这个问题。

www.synapsesocial.com/papers/69dab430615cc0c8eaa3d097 — DOI: https://doi.org/10.1109/cvpr52729.2023.01457

Also consider

Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context:

OmniMAE: Single Model Masked Pretraining on Images and Videos· 2023 · 67 citations
Representation Learning with Contrastive Predictive Coding· 2018 · 4,515 citations

ImageBind——统一嵌入空间，绑定所有模态

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider