March 14, 2024Open Access

EfficientVMamba：用于轻量级视觉Mamba的空洞选择性扫描

Key Points

Key points are not available for this paper at this time.

Abstract

以往轻量级模型开发主要集中在基于CNN和Transformer的设计，但依然面临持续挑战。CNN擅长局部特征提取，但牺牲分辨率；Transformer提供全局视野，但计算需求升高至O(N²)。准确性与效率的权衡依旧是重大难题。近期，状态空间模型（SSM），例如Mamba，在语言建模和计算机视觉等多任务中表现优异且具有竞争力，同时将全局信息提取的时间复杂度降低至O(N)。受此启发，本研究提出探索视觉状态空间模型在轻量级模型设计中的潜力，并引入一种新颖高效的模型变体，称为EfficientVMamba。具体而言，我们的EfficientVMamba结合了基于空洞的选择性扫描方法通过高效跳采样，构建模块旨在利用全局和局部表征特征。此外，我们研究了SSM模块与卷积的整合，并引入了结合额外卷积分支的高效视觉状态空间模块，进一步提升模型性能。实验结果显示，EfficientVMamba降低了计算复杂度，同时在多种视觉任务中取得了竞争性结果。例如，EfficientVMamba-S拥有1.3G FLOPs，相比具有1.5G FLOPs的Vim-Ti，在ImageNet上准确率提升了显著的5.6%。代码可在：https://github.com/TerryPei/EfficientVMamba 获取。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiaohuan Pei

Tao Huang

Chang Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

EfficientVMamba：用于轻量级视觉Mamba的空洞选择性扫描

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study