Evaluar las capacidades de comprensión de videos de los Modelos de Video-Lenguaje (VLMs) sigue siendo un desafío significativo. Proponemos un benchmark de comprensión de videos de contexto largo, Causal2Needles, que evalúa dos habilidades cruciales insuficientemente valoradas por benchmarks existentes: (1) la capacidad de extraer información de dos ubicaciones separadas en un video largo y entenderlas conjuntamente, y (2) la capacidad de modelar el mundo en términos de causa y efecto en comportamientos humanos. Específicamente, Causal2Needles introduce preguntas de 2 agujas, que requieren extraer información tanto de los eventos de comportamiento humano de causa como de efecto en un video largo y del texto de narración asociado. Para prevenir sesgos textuales, estas preguntas comprenden dos formatos complementarios: uno que pide identificar el clip de video que contiene la respuesta, y otro que pide la descripción textual de un detalle visual no relacionado de ese clip. Nuestros experimentos revelan que modelos que sobresalen en benchmarks preexistentes tienen dificultades con el grounding visual de 2 agujas, y el rendimiento del modelo se correlaciona negativamente con la distancia entre las dos agujas. Estos hallazgos destacan limitaciones críticas en los VLMs actuales.
Building similarity graph...
Analyzing shared references across papers
Loading...
Miaoyu Li
Qin Chao
Boyang Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68dc12c58a7d58c25ebb08cd — DOI: https://doi.org/10.48550/arxiv.2505.19853
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: