Key points are not available for this paper at this time.
نقدم ImageBind، نهجًا لتعلم تمثيل مشترك عبر ستة أنماط بيانات مختلفة - الصور، النص، الصوت، العمق، الحرارة، وبيانات وحدة قياس العزم (IMU). نوضح أن جميع تركيبات البيانات المزدوجة ليست ضرورية لتدريب هذا التمثيل المشترك، وأن البيانات المقرونة بالصور وحدها كافية لربط الأنماط المختلفة معًا. يمكن لـ ImageBind الاستفادة من نماذج الرؤية-اللغة واسعة النطاق الحديثة، ويمتد قدراتها على التعميم بدون تدريب (zero-shot) إلى أنماط جديدة فقط باستخدام اقترانها الطبيعي مع الصور. يتيح تطبيقات جديدة ناشئة 'جاهزة للاستخدام' تشمل الاسترجاع عبر الأنماط، تركيب الأنماط باستخدام العمليات الحسابية، الكشف وال توليد عبر الأنماط المختلفة. تتحسن هذه القدرات الناشئة مع قوة مشفر الصور ووضعنا معيارًا جديدًا لأفضل أداء في مهام التعرف بدون تدريب عبر الأنماط، متفوقًا على النماذج المتخصصة المدربة إشرافيًا. أخيرًا، نعرض نتائج قوية في التعرف بعدد عينات قليل متفوقة على الأعمال السابقة، وأن ImageBind يعمل كطريقة جديدة لتقييم نماذج الرؤية للمهام البصرية وغير البصرية.
Building similarity graph...
Analyzing shared references across papers
Loading...
Rohit Girdhar
Alaaeldin El-Nouby
Zhuang Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Girdhar وزملاؤه (Thu,) هذا السؤال.
www.synapsesocial.com/papers/69dab430615cc0c8eaa3d097 — DOI: https://doi.org/10.1109/cvpr52729.2023.01457
Synapse has enriched 2 closely related papers on similar clinical questions. Consider them for comparative context: