Los puntos clave no están disponibles para este artículo en este momento.
A pesar de los logros significativos de los Vision Transformers (ViTs) en diversas tareas de visión, están limitados por la complejidad cuadrática. Recientemente, los State Space Models (SSMs) han ganado amplia atención debido a su campo receptivo global y complejidad lineal respecto a la longitud de entrada, demostrando un potencial sustancial en campos como el procesamiento del lenguaje natural y la visión por computadora. Para mejorar el rendimiento de los SSMs en tareas de visión, se adopta ampliamente una estrategia de multi-escaneo, lo que conduce a una redundancia significativa de los SSMs. Para un mejor equilibrio entre eficiencia y rendimiento, analizamos las razones subyacentes detrás del éxito de la estrategia de multi-escaneo, donde la dependencia de largo alcance juega un papel importante. Basándonos en este análisis, presentamos Multi-Scale Vision Mamba (MSVMamba) para preservar la superioridad de los SSMs en tareas de visión con parámetros limitados. Emplea una técnica de escaneo 2D multi-escala tanto en mapas de características originales como en reducidos, lo que no solo beneficia el aprendizaje de dependencias de largo alcance sino que también reduce los costos computacionales. Además, integramos una Red Feed-Forward Convolucional (ConvFFN) para abordar la falta de mezcla de canales. Nuestros experimentos demuestran que MSVMamba es altamente competitivo, con el modelo MSVMamba-Tiny alcanzando un 82.8% de precisión top-1 en ImageNet, 46.9% box mAP y 42.2% instance mAP con el marco Mask R-CNN, programación de entrenamiento 1x en COCO, y 47.6% mIoU con pruebas a escala única en ADE20K. El código está disponible en https://github.com/YuHengsss/MSVMamba.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuheng Shi
Minjing Dong
Chang Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Shi et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e68ab2b6db64358761293e — DOI: https://doi.org/10.48550/arxiv.2405.14174