June 14, 2024Open Access

Localización de eventos en videos con consultas multimodales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

La comprensión de videos es una tarea fundamental en la era digital, sin embargo, la naturaleza dinámica y multievento de los videos hace que su procesamiento sea laborioso y computacionalmente exigente. Por ello, la localización de un evento específico dado una consulta semántica ha cobrado importancia tanto en aplicaciones orientadas al usuario, como la búsqueda de videos, como en la investigación académica sobre modelos base de video. Una limitación significativa en la investigación actual es que las consultas semánticas son típicamente en lenguaje natural que describe la semántica del evento objetivo. Este enfoque pasa por alto el potencial de consultas semánticas multimodales compuestas por imágenes y textos. Para abordar esta brecha, introducimos un nuevo benchmark, ICQ, para la localización de eventos en videos con consultas multimodales, junto con un nuevo conjunto de datos de evaluación ICQ-Highlight. Nuestro nuevo benchmark tiene como objetivo evaluar qué tan bien los modelos pueden localizar un evento dado una consulta semántica multimodal que consiste en una imagen de referencia, que representa el evento, y un texto de refinamiento para ajustar la semántica de las imágenes. Para evaluar sistemáticamente el rendimiento de los modelos, incluimos 4 estilos de imágenes de referencia y 5 tipos de textos de refinamiento, permitiéndonos explorar el desempeño en diferentes dominios. Proponemos 3 métodos de adaptación que ajustan modelos existentes a nuestro nuevo entorno y evaluamos 10 modelos SOTA, que van desde especializados hasta modelos base a gran escala. Creemos que este benchmark es un paso inicial hacia la investigación de consultas multimodales en la localización de eventos en videos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Gengyuan Zhang

Mang Ling Ada Fok

Yan Xia

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Localización de eventos en videos con consultas multimodales

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider