March 11, 2024Open Access

VideoMamba: نموذج الفضاء الحالة لفهم الفيديو بكفاءة

Key Points

Key points are not available for this paper at this time.

Abstract

معالجة التحديين المزدوجين للرتابة المحلية والاعتمادات العالمية في فهم الفيديو، يبتكر هذا العمل تكييف ماميبا لمجال الفيديو. يتجاوز VideoMamba المقترح حدود شبكات الالتفاف ثلاثية الأبعاد الموجودة ومحوّلات الفيديو. يمكّن العامل ذو التعقيد الخطي من النمذجة الطويلة الأمد بكفاءة، وهي مهمة لفهم الفيديوهات الطويلة عالية الدقة. تكشف التقييمات الموسعة عن أربع قدرات أساسية لـ VideoMamba: (1) قابلية التوسع في المجال البصري دون الحاجة إلى تدريب مسبق واسع النطاق للمجموعات البيانات، بفضل تقنية تقطير ذاتي جديدة؛ (2) الحساسية للتعرف على الأفعال قصيرة الأمد حتى مع اختلافات الحركة الدقيقة؛ (3) التفوق في فهم الفيديو طويل الأمد، مع تقدم ملحوظ مقارنةً بالنماذج المعتمدة على الميزات التقليدية؛ و(4) التوافق مع الوسائط الأخرى، مما يظهر قوة في السياقات متعددة الوسائط. من خلال هذه المزايا المميزة، يضع VideoMamba معيارًا جديدًا لفهم الفيديو، مقدّمًا حلاً قابلاً للتوسع وفعالًا للفهم الشامل للفيديو. جميع الأكواد والنماذج متاحة على https://github.com/OpenGVLab/VideoMamba.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kunchang Li

Xinhao Li

Yi Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VideoMamba: نموذج الفضاء الحالة لفهم الفيديو بكفاءة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider