Key points are not available for this paper at this time.
معالجة التحديين المزدوجين للرتابة المحلية والاعتمادات العالمية في فهم الفيديو، يبتكر هذا العمل تكييف ماميبا لمجال الفيديو. يتجاوز VideoMamba المقترح حدود شبكات الالتفاف ثلاثية الأبعاد الموجودة ومحوّلات الفيديو. يمكّن العامل ذو التعقيد الخطي من النمذجة الطويلة الأمد بكفاءة، وهي مهمة لفهم الفيديوهات الطويلة عالية الدقة. تكشف التقييمات الموسعة عن أربع قدرات أساسية لـ VideoMamba: (1) قابلية التوسع في المجال البصري دون الحاجة إلى تدريب مسبق واسع النطاق للمجموعات البيانات، بفضل تقنية تقطير ذاتي جديدة؛ (2) الحساسية للتعرف على الأفعال قصيرة الأمد حتى مع اختلافات الحركة الدقيقة؛ (3) التفوق في فهم الفيديو طويل الأمد، مع تقدم ملحوظ مقارنةً بالنماذج المعتمدة على الميزات التقليدية؛ و(4) التوافق مع الوسائط الأخرى، مما يظهر قوة في السياقات متعددة الوسائط. من خلال هذه المزايا المميزة، يضع VideoMamba معيارًا جديدًا لفهم الفيديو، مقدّمًا حلاً قابلاً للتوسع وفعالًا للفهم الشامل للفيديو. جميع الأكواد والنماذج متاحة على https://github.com/OpenGVLab/VideoMamba.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kunchang Li
Xinhao Li
Yi Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
درس لي وزملاؤه (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e7495fb6db6435876c29cf — DOI: https://doi.org/10.48550/arxiv.2403.06977
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: