Los Video Large Language Models (VLMs) han logrado resultados notables en diversas tareas de visión y lenguaje, pero su uso práctico está limitado por el problema de "aguja en un pajar": la enorme cantidad de tokens visuales producidos a partir de fotogramas crudos agota la ventana de contexto del modelo. Las soluciones existentes alivian este problema seleccionando un conjunto escaso de fotogramas, reduciendo así la cantidad de tokens, pero dicha selección a nivel de fotograma descarta las dinámicas temporales esenciales, lo que lleva a un razonamiento subóptimo sobre el movimiento y la continuidad de eventos. En este trabajo exploramos sistemáticamente el impacto de la información temporal y demostramos que extender la selección de fotogramas clave aislados a clips clave, que son segmentos cortos y temporalmente coherentes, mejora la comprensión del video. Para mantener un presupuesto computacional fijo mientras se acomoda la mayor huella de tokens de los clips, proponemos una estrategia de resolución adaptativa que equilibra dinámicamente la resolución espacial y la duración del clip, asegurando un conteo constante de tokens por video. Experimentos en tres benchmarks de video de formato largo demuestran que nuestro enfoque sin entrenamiento, F2C, supera el muestreo uniforme hasta en un 8.1%, 5.6% y 10.3% en Video-MME, LongVideoBench y MLVU respectivamente. Estos resultados resaltan la importancia de preservar la coherencia temporal en la selección de fotogramas y proveen un camino práctico para escalar los Video LLMs a aplicaciones reales de comprensión de video. La página del proyecto está disponible en https://guangyusun.com/f2c.
Building similarity graph...
Analyzing shared references across papers
Loading...
Guangyu Sun
Ankur Singhal
Burak Uzkent
Building similarity graph...
Analyzing shared references across papers
Loading...
Sun et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e7d631bd66d359be62669c — DOI: https://doi.org/10.48550/arxiv.2510.02262
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: