What type of study is this?

This is a Quantitative Study study.

September 30, 2025Open Access

Dos agujas causalmente relacionadas en un pajar de videos

Puntos clave

Los modelos enfrentan desafíos para extraer información de dos ubicaciones en videos largos, y el rendimiento disminuye con la distancia entre esas ubicaciones.
Los resultados del benchmark Causal2Needles indican que los VLMs existentes tienen dificultades para comprender relaciones causales en comportamientos humanos.
Los hallazgos experimentales revelan que las preguntas de 2 agujas miden efectivamente las limitaciones de los enfoques actuales en la comprensión de videos de contexto largo.
El benchmark previene sesgos textuales al ofrecer formatos de preguntas complementarios que prueban tanto la comprensión visual como textual.

Resumen

Evaluar las capacidades de comprensión de videos de los Modelos de Video-Lenguaje (VLMs) sigue siendo un desafío significativo. Proponemos un benchmark de comprensión de videos de contexto largo, Causal2Needles, que evalúa dos habilidades cruciales insuficientemente valoradas por benchmarks existentes: (1) la capacidad de extraer información de dos ubicaciones separadas en un video largo y entenderlas conjuntamente, y (2) la capacidad de modelar el mundo en términos de causa y efecto en comportamientos humanos. Específicamente, Causal2Needles introduce preguntas de 2 agujas, que requieren extraer información tanto de los eventos de comportamiento humano de causa como de efecto en un video largo y del texto de narración asociado. Para prevenir sesgos textuales, estas preguntas comprenden dos formatos complementarios: uno que pide identificar el clip de video que contiene la respuesta, y otro que pide la descripción textual de un detalle visual no relacionado de ese clip. Nuestros experimentos revelan que modelos que sobresalen en benchmarks preexistentes tienen dificultades con el grounding visual de 2 agujas, y el rendimiento del modelo se correlaciona negativamente con la distancia entre las dos agujas. Estos hallazgos destacan limitaciones críticas en los VLMs actuales.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Miaoyu Li

Qin Chao

Boyang Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Dos agujas causalmente relacionadas en un pajar de videos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider