What type of study is this?

This is a Quantitative Study study.

September 22, 2025Open Access

Q-Frame: Selección de Frames con Conocimiento de la Consulta y Adaptación Multi-Resolución para Video-LLMs

Puntos clave

Q-Frame mejora la capacidad de los video-LLMs para capturar pistas espaciotemporales de manera efectiva, mejorando la comprensión.
Usando el truco Gumbel-Max, Q-Frame optimiza la selección de frames sin aumentar significativamente la carga computacional.
Amplios experimentos en conjuntos de datos como MLVU y LongVideoBench validan la superioridad de Q-Frame en tareas de video.
El enfoque permite una mejor adaptación a consultas específicas, asegurando que frames relevantes sean priorizados en el procesamiento.

Resumen

Los Modelos de Lenguaje de Gran Tamaño Multimodales (MLLMs) han demostrado un éxito significativo en tareas de comprensión visual. Sin embargo, persisten desafíos para adaptar estos modelos a la comprensión de videos debido al gran volumen de datos y la complejidad temporal. Los Video-LLMs existentes que usan muestreo uniforme de frames a menudo tienen dificultades para capturar de manera efectiva las pistas espaciotemporales cruciales relacionadas con la consulta en los videos. En este artículo, presentamos Q-Frame, un enfoque novedoso para la selección adaptativa de frames y escalado multi-resolución ajustado al contenido del video y a la consulta específica. Q-Frame emplea una estrategia sin entrenamiento, plug-and-play generada por una red de correspondencia texto-imagen como CLIP, utilizando el truco Gumbel-Max para la selección eficiente de frames. Q-Frame permite a los Video-LLMs procesar más frames sin exceder los límites computacionales, preservando así información temporal y espacial crítica. Demostramos la efectividad de Q-Frame mediante extensos experimentos en conjuntos de datos de referencia, incluyendo MLVU, LongVideoBench y Video-MME, mostrando su superioridad sobre métodos existentes y su aplicabilidad en varias tareas de comprensión de video.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shaojie Zhang

Jiahui Yang

Jianqin Yin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Q-Frame: Selección de Frames con Conocimiento de la Consulta y Adaptación Multi-Resolución para Video-LLMs

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider