July 29, 2024Open Access

Red Espacio-Temporal Eficiente para el Reconocimiento de Acciones

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Resumen El tensor de entrada de datos de video incluye dimensiones temporales, espaciales y de canal, cruciales para extraer características complementarias espaciales, temporales y espacio-temporales para el reconocimiento de acciones en video. Para extraer e integrar eficientemente estas características, proponemos un Módulo Espacio-Temporal Eficiente (ESTM) con tres vías dedicadas a extraer características espaciales, temporales y espacio-temporales. Cada vía utiliza el módulo de Agrupación Promedio Global Cruzada (CGAP) para comprimir la dimensión actual, enfocando las características en las dos dimensiones restantes. Esto mejora la extracción de características y las tasas de reconocimiento para acciones complejas. También introducimos un Módulo de Excitación de Movimiento (MEM) para enriquecer las características de entrada transformando las correlaciones entre cuadros adyacentes, reduciendo la complejidad computacional. Finalmente, ESTM y MEM se integran perfectamente en una CNN 2D, formando la Red Espacio-Temporal Eficiente (ESTN), con un impacto mínimo en los parámetros de la red y los costos computacionales. Experimentaciones extensas muestran que ESTN supera a los métodos de última generación en conjuntos de datos como Something V1 & V2 y HMDB51, validando su efectividad.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yanxiong Su

Qian Zhao

Actions

Institutions

Shanghai University of Electric Power

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Red Espacio-Temporal Eficiente para el Reconocimiento de Acciones

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study