الملخص قدمت نماذج الحالة (SSMs)، مثل S4، طريقة جديدة لنمذجة السياق من خلال دمج تقنيات الحالة في التعلم العميق. على الرغم من فعاليتها، تواجه SSMs صعوبات في نمذجة السياق العام بسبب المصفوفات المستقلة عن البيانات. يعالج نموذج Mamba هذا باستخدام متغيرات تعتمد على البيانات بفضل خوارزمية S6 الاختيارية، مما يعزز نمذجة السياق، خاصة للتسلسلات الطويلة. مع ذلك، تواجه البُنى المعتمدة على Mamba تحديات كبيرة في قابلية التوسع من حيث المعلمات، مما يحد من استخدامها في تطبيقات الرؤية. تتناول هذه الورقة مشكلة قابلية التوسع لنماذج الحالة الكبيرة لتصنيف الصور والتعرف على الأفعال دون الاعتماد على تقنيات إضافية مثل تقطير المعرفة. نحلل الخصائص المميزة لنماذج Mamba ونماذج الانتباه، مقدمين بنية متداخلة تجمع بين Mamba والانتباه تعزز من القابلية للتوسع والصلابة والأداء. نثبت أن البنية المتداخلة المستقرة والفعالة تحل مشكلة القابلية للتوسع في بُنى Mamba وتزيد من الصلابة تجاه التشوهات الشائعة. تُظهر تقييماتنا الشاملة على معايير ImageNet-1K، Kinetics-400، وSomething-Something-v2 أن نهجنا يحسن دقة أحدث بُنى Mamba بنسبة تصل إلى +1.7%.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hamid Suleman
Syed Talal Wasim
Muzammal Naseer
International Journal of Computer Vision
University of Bonn
Khalifa University of Science and Technology
Lamarr Institute for Machine Learning and Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
درس سليمان وآخرون (الجمعة،) هذا السؤال.
www.synapsesocial.com/papers/69e473ff010ef96374d8fc37 — DOI: https://doi.org/10.1007/s11263-026-02824-0