June 27, 2024Open Access

VideoMambaPro: Um avanço para Mamba na compreensão de vídeo

Key Points

Key points are not available for this paper at this time.

Abstract

A compreensão de vídeo requer a extração de representações espaço-temporais ricas, que os modelos transformer alcançam por meio da autoatenção. Infelizmente, a autoatenção impõe uma carga computacional. Em NLP, Mamba surgiu como uma alternativa eficiente aos transformers. Contudo, os êxitos de Mamba não se estendem trivialmente às tarefas de visão computacional, incluindo aquelas em análise de vídeo. Neste artigo, analisamos teoricamente as diferenças entre autoatenção e Mamba. Identificamos duas limitações no processamento de tokens do Mamba: decaimento histórico e contradição elementar. Propomos VideoMambaPro (VMP), que resolve as limitações identificadas adicionando cálculo mascarado retroativo e conexões residuais elementares a um backbone VideoMamba. VideoMambaPro demonstra desempenho de ponta no reconhecimento de ações em vídeo comparado a modelos transformer, superando VideoMamba por margens claras: 7,9% e 8,1% top-1 em Kinetics-400 e Something-Something V2, respectivamente. Nosso modelo VideoMambaPro-M alcança 91,9% top-1 em Kinetics-400, apenas 0,2% abaixo do InternVideo2-6B, mas com apenas 1,2% dos seus parâmetros. A combinação de alto desempenho e eficiência torna VideoMambaPro uma alternativa interessante aos modelos transformer.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hui Lü

Albert Ali Salah

Ronald Poppe

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VideoMambaPro: Um avanço para Mamba na compreensão de vídeo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider