Key points are not available for this paper at this time.
以往轻量级模型开发主要集中在基于CNN和Transformer的设计,但依然面临持续挑战。CNN擅长局部特征提取,但牺牲分辨率;Transformer提供全局视野,但计算需求升高至O(N²)。准确性与效率的权衡依旧是重大难题。近期,状态空间模型(SSM),例如Mamba,在语言建模和计算机视觉等多任务中表现优异且具有竞争力,同时将全局信息提取的时间复杂度降低至O(N)。受此启发,本研究提出探索视觉状态空间模型在轻量级模型设计中的潜力,并引入一种新颖高效的模型变体,称为EfficientVMamba。具体而言,我们的EfficientVMamba结合了基于空洞的选择性扫描方法通过高效跳采样,构建模块旨在利用全局和局部表征特征。此外,我们研究了SSM模块与卷积的整合,并引入了结合额外卷积分支的高效视觉状态空间模块,进一步提升模型性能。实验结果显示,EfficientVMamba降低了计算复杂度,同时在多种视觉任务中取得了竞争性结果。例如,EfficientVMamba-S拥有1.3G FLOPs,相比具有1.5G FLOPs的Vim-Ti,在ImageNet上准确率提升了显著的5.6%。代码可在:https://github.com/TerryPei/EfficientVMamba 获取。
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaohuan Pei
Tao Huang
Chang Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Pei 等人(周四)研究了此问题。
www.synapsesocial.com/papers/68e73fecb6db6435876b98f9 — DOI: https://doi.org/10.48550/arxiv.2403.09977