要旨 状態空間モデル(SSMs)は、S4に代表されるように、深層学習に状態空間技術を統合することで新しい文脈モデリング手法を導入しました。効果的ではありますが、SSMsはデータ非依存行列のためにグローバル文脈モデリングが困難です。Mambaモデルは、S6選択的スキャンアルゴリズムにより可能となるデータ依存変種を用いてこれを解決し、特に長い系列に対して文脈モデリングを強化しました。しかし、Mambaベースのアーキテクチャは大幅なパラメータのスケーラビリティの課題に直面しており、視覚応用での利用が制限されています。本論文では、知識蒸留などの追加技術に頼ることなく、画像分類および行動認識のための大規模SSMsのスケーラビリティ問題に取り組みます。MambaベースモデルとAttentionベースモデルの特徴を分析し、スケーラビリティ、堅牢性、性能を向上させるMamba-Attentionのインターリーブアーキテクチャを提案します。この安定かつ効率的なインターリーブアーキテクチャにより、Mambaベースアーキテクチャのスケーラビリティ問題が解決され、一般的な劣化アーティファクトに対する堅牢性が向上することを示します。ImageNet-1K、Kinetics-400、Something-Something-v2ベンチマークでの徹底的な評価により、本手法はMambaベース最新アーキテクチャの精度を最大+1.7%向上させることを示しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Sulemanら(Fri,)がこの問題を研究しました。
www.synapsesocial.com/papers/69e473ff010ef96374d8fc37 — DOI: https://doi.org/10.1007/s11263-026-02824-0
Hamid Suleman
Syed Talal Wasim
Muzammal Naseer
International Journal of Computer Vision
University of Bonn
Khalifa University of Science and Technology
Lamarr Institute for Machine Learning and Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...