What question did this study set out to answer?

視覚応用における大規模状態空間モデルのスケーラビリティ課題に対処することを目的とする。

April 19, 2026Open Access

画像とビデオの大規模状態空間モデルの蒸留不要なスケーリング

Key Points

視覚応用における大規模状態空間モデルのスケーラビリティ課題に対処することを目的とする。
MambaベースモデルとAttentionベースモデルの特徴を分析。
MambaとAttentionメカニズムを組み合わせたインターリーブアーキテクチャを提案。
ImageNet-1KおよびKinetics-400などの標準ベンチマークで手法を評価。
インターリーブアーキテクチャによりスケーラビリティと劣化アーティファクトに対する堅牢性が向上。
最先端のMambaベースアーキテクチャと比べて精度が最大1.7%向上。

Abstract

要旨状態空間モデル（SSMs）は、S4に代表されるように、深層学習に状態空間技術を統合することで新しい文脈モデリング手法を導入しました。効果的ではありますが、SSMsはデータ非依存行列のためにグローバル文脈モデリングが困難です。Mambaモデルは、S6選択的スキャンアルゴリズムにより可能となるデータ依存変種を用いてこれを解決し、特に長い系列に対して文脈モデリングを強化しました。しかし、Mambaベースのアーキテクチャは大幅なパラメータのスケーラビリティの課題に直面しており、視覚応用での利用が制限されています。本論文では、知識蒸留などの追加技術に頼ることなく、画像分類および行動認識のための大規模SSMsのスケーラビリティ問題に取り組みます。MambaベースモデルとAttentionベースモデルの特徴を分析し、スケーラビリティ、堅牢性、性能を向上させるMamba-Attentionのインターリーブアーキテクチャを提案します。この安定かつ効率的なインターリーブアーキテクチャにより、Mambaベースアーキテクチャのスケーラビリティ問題が解決され、一般的な劣化アーティファクトに対する堅牢性が向上することを示します。ImageNet-1K、Kinetics-400、Something-Something-v2ベンチマークでの徹底的な評価により、本手法はMambaベース最新アーキテクチャの精度を最大+1.7%向上させることを示しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Sulemanら（Fri,）がこの問題を研究しました。

www.synapsesocial.com/papers/69e473ff010ef96374d8fc37 — DOI: https://doi.org/10.1007/s11263-026-02824-0

Authors

Hamid Suleman

Syed Talal Wasim

Muzammal Naseer

Journals

International Journal of Computer Vision

Actions

Institutions

University of Bonn

Khalifa University of Science and Technology

Lamarr Institute for Machine Learning and Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

画像とビデオの大規模状態空間モデルの蒸留不要なスケーリング

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion