What type of study is this?

This is a Experimental Study study.

October 9, 2025Open Access

De fotogramas a clips: Selección eficiente de clips clave para la comprensión de videos de formato largo

Puntos clave

Mejorar la comprensión del video mediante la selección de clips clave realza el movimiento y la continuidad de eventos.
Se mantiene un presupuesto computacional fijo mientras se balancean eficazmente la resolución espacial y la duración del clip.
Experimentos en tres benchmarks de video muestran que F2C supera el muestreo uniforme con mejoras de 8.1%, 5.6% y 10.3%.
El enfoque representa avances cruciales para escalar modelos de lenguaje de video en aplicaciones del mundo real.

Resumen

Los Video Large Language Models (VLMs) han logrado resultados notables en diversas tareas de visión y lenguaje, pero su uso práctico está limitado por el problema de "aguja en un pajar": la enorme cantidad de tokens visuales producidos a partir de fotogramas crudos agota la ventana de contexto del modelo. Las soluciones existentes alivian este problema seleccionando un conjunto escaso de fotogramas, reduciendo así la cantidad de tokens, pero dicha selección a nivel de fotograma descarta las dinámicas temporales esenciales, lo que lleva a un razonamiento subóptimo sobre el movimiento y la continuidad de eventos. En este trabajo exploramos sistemáticamente el impacto de la información temporal y demostramos que extender la selección de fotogramas clave aislados a clips clave, que son segmentos cortos y temporalmente coherentes, mejora la comprensión del video. Para mantener un presupuesto computacional fijo mientras se acomoda la mayor huella de tokens de los clips, proponemos una estrategia de resolución adaptativa que equilibra dinámicamente la resolución espacial y la duración del clip, asegurando un conteo constante de tokens por video. Experimentos en tres benchmarks de video de formato largo demuestran que nuestro enfoque sin entrenamiento, F2C, supera el muestreo uniforme hasta en un 8.1%, 5.6% y 10.3% en Video-MME, LongVideoBench y MLVU respectivamente. Estos resultados resaltan la importancia de preservar la coherencia temporal en la selección de fotogramas y proveen un camino práctico para escalar los Video LLMs a aplicaciones reales de comprensión de video. La página del proyecto está disponible en https://guangyusun.com/f2c.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guangyu Sun

Ankur Singhal

Burak Uzkent

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

De fotogramas a clips: Selección eficiente de clips clave para la comprensión de videos de formato largo

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider