Los puntos clave no están disponibles para este artículo en este momento.
La comprensión de videos es una tarea fundamental en la era digital, sin embargo, la naturaleza dinámica y multievento de los videos hace que su procesamiento sea laborioso y computacionalmente exigente. Por ello, la localización de un evento específico dado una consulta semántica ha cobrado importancia tanto en aplicaciones orientadas al usuario, como la búsqueda de videos, como en la investigación académica sobre modelos base de video. Una limitación significativa en la investigación actual es que las consultas semánticas son típicamente en lenguaje natural que describe la semántica del evento objetivo. Este enfoque pasa por alto el potencial de consultas semánticas multimodales compuestas por imágenes y textos. Para abordar esta brecha, introducimos un nuevo benchmark, ICQ, para la localización de eventos en videos con consultas multimodales, junto con un nuevo conjunto de datos de evaluación ICQ-Highlight. Nuestro nuevo benchmark tiene como objetivo evaluar qué tan bien los modelos pueden localizar un evento dado una consulta semántica multimodal que consiste en una imagen de referencia, que representa el evento, y un texto de refinamiento para ajustar la semántica de las imágenes. Para evaluar sistemáticamente el rendimiento de los modelos, incluimos 4 estilos de imágenes de referencia y 5 tipos de textos de refinamiento, permitiéndonos explorar el desempeño en diferentes dominios. Proponemos 3 métodos de adaptación que ajustan modelos existentes a nuestro nuevo entorno y evaluamos 10 modelos SOTA, que van desde especializados hasta modelos base a gran escala. Creemos que este benchmark es un paso inicial hacia la investigación de consultas multimodales en la localización de eventos en videos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Gengyuan Zhang
Mang Ling Ada Fok
Yan Xia
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (vie,) estudiaron esta pregunta.
www.synapsesocial.com/papers/68e64d66b6db6435875ddb83 — DOI: https://doi.org/10.48550/arxiv.2406.10079
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: