Los puntos clave no están disponibles para este artículo en este momento.
Resumen El tensor de entrada de datos de video incluye dimensiones temporales, espaciales y de canal, cruciales para extraer características complementarias espaciales, temporales y espacio-temporales para el reconocimiento de acciones en video. Para extraer e integrar eficientemente estas características, proponemos un Módulo Espacio-Temporal Eficiente (ESTM) con tres vías dedicadas a extraer características espaciales, temporales y espacio-temporales. Cada vía utiliza el módulo de Agrupación Promedio Global Cruzada (CGAP) para comprimir la dimensión actual, enfocando las características en las dos dimensiones restantes. Esto mejora la extracción de características y las tasas de reconocimiento para acciones complejas. También introducimos un Módulo de Excitación de Movimiento (MEM) para enriquecer las características de entrada transformando las correlaciones entre cuadros adyacentes, reduciendo la complejidad computacional. Finalmente, ESTM y MEM se integran perfectamente en una CNN 2D, formando la Red Espacio-Temporal Eficiente (ESTN), con un impacto mínimo en los parámetros de la red y los costos computacionales. Experimentaciones extensas muestran que ESTN supera a los métodos de última generación en conjuntos de datos como Something V1 & V2 y HMDB51, validando su efectividad.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yanxiong Su
Qian Zhao
Shanghai University of Electric Power
Building similarity graph...
Analyzing shared references across papers
Loading...
Su et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e5eb3bb6db6435875803ce — DOI: https://doi.org/10.21203/rs.3.rs-4679346/v1