May 23, 2024Open Access

Multi-Scale VMamba: Jerarquía en el Modelo de Espacio de Estados Visual en Jerarquía

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

A pesar de los logros significativos de los Vision Transformers (ViTs) en diversas tareas de visión, están limitados por la complejidad cuadrática. Recientemente, los State Space Models (SSMs) han ganado amplia atención debido a su campo receptivo global y complejidad lineal respecto a la longitud de entrada, demostrando un potencial sustancial en campos como el procesamiento del lenguaje natural y la visión por computadora. Para mejorar el rendimiento de los SSMs en tareas de visión, se adopta ampliamente una estrategia de multi-escaneo, lo que conduce a una redundancia significativa de los SSMs. Para un mejor equilibrio entre eficiencia y rendimiento, analizamos las razones subyacentes detrás del éxito de la estrategia de multi-escaneo, donde la dependencia de largo alcance juega un papel importante. Basándonos en este análisis, presentamos Multi-Scale Vision Mamba (MSVMamba) para preservar la superioridad de los SSMs en tareas de visión con parámetros limitados. Emplea una técnica de escaneo 2D multi-escala tanto en mapas de características originales como en reducidos, lo que no solo beneficia el aprendizaje de dependencias de largo alcance sino que también reduce los costos computacionales. Además, integramos una Red Feed-Forward Convolucional (ConvFFN) para abordar la falta de mezcla de canales. Nuestros experimentos demuestran que MSVMamba es altamente competitivo, con el modelo MSVMamba-Tiny alcanzando un 82.8% de precisión top-1 en ImageNet, 46.9% box mAP y 42.2% instance mAP con el marco Mask R-CNN, programación de entrenamiento 1x en COCO, y 47.6% mIoU con pruebas a escala única en ADE20K. El código está disponible en https://github.com/YuHengsss/MSVMamba.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuheng Shi

Minjing Dong

Chang Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Multi-Scale VMamba: Jerarquía en el Modelo de Espacio de Estados Visual en Jerarquía

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study