Key points are not available for this paper at this time.
A compreensão de vídeo requer a extração de representações espaço-temporais ricas, que os modelos transformer alcançam por meio da autoatenção. Infelizmente, a autoatenção impõe uma carga computacional. Em NLP, Mamba surgiu como uma alternativa eficiente aos transformers. Contudo, os êxitos de Mamba não se estendem trivialmente às tarefas de visão computacional, incluindo aquelas em análise de vídeo. Neste artigo, analisamos teoricamente as diferenças entre autoatenção e Mamba. Identificamos duas limitações no processamento de tokens do Mamba: decaimento histórico e contradição elementar. Propomos VideoMambaPro (VMP), que resolve as limitações identificadas adicionando cálculo mascarado retroativo e conexões residuais elementares a um backbone VideoMamba. VideoMambaPro demonstra desempenho de ponta no reconhecimento de ações em vídeo comparado a modelos transformer, superando VideoMamba por margens claras: 7,9% e 8,1% top-1 em Kinetics-400 e Something-Something V2, respectivamente. Nosso modelo VideoMambaPro-M alcança 91,9% top-1 em Kinetics-400, apenas 0,2% abaixo do InternVideo2-6B, mas com apenas 1,2% dos seus parâmetros. A combinação de alto desempenho e eficiência torna VideoMambaPro uma alternativa interessante aos modelos transformer.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hui Lü
Albert Ali Salah
Ronald Poppe
Building similarity graph...
Analyzing shared references across papers
Loading...
Lü et al. (Qui,) estudaram esta questão.
www.synapsesocial.com/papers/68e6312bb6db6435875c38ef — DOI: https://doi.org/10.48550/arxiv.2406.19006
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: