Los Modelos de Lenguaje de Gran Tamaño Multimodales (MLLMs) han demostrado un éxito significativo en tareas de comprensión visual. Sin embargo, persisten desafíos para adaptar estos modelos a la comprensión de videos debido al gran volumen de datos y la complejidad temporal. Los Video-LLMs existentes que usan muestreo uniforme de frames a menudo tienen dificultades para capturar de manera efectiva las pistas espaciotemporales cruciales relacionadas con la consulta en los videos. En este artículo, presentamos Q-Frame, un enfoque novedoso para la selección adaptativa de frames y escalado multi-resolución ajustado al contenido del video y a la consulta específica. Q-Frame emplea una estrategia sin entrenamiento, plug-and-play generada por una red de correspondencia texto-imagen como CLIP, utilizando el truco Gumbel-Max para la selección eficiente de frames. Q-Frame permite a los Video-LLMs procesar más frames sin exceder los límites computacionales, preservando así información temporal y espacial crítica. Demostramos la efectividad de Q-Frame mediante extensos experimentos en conjuntos de datos de referencia, incluyendo MLVU, LongVideoBench y Video-MME, mostrando su superioridad sobre métodos existentes y su aplicabilidad en varias tareas de comprensión de video.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shaojie Zhang
Jiahui Yang
Jianqin Yin
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Fri,) studied this question.
www.synapsesocial.com/papers/68d46fdc31b076d99fa6a5eb — DOI: https://doi.org/10.48550/arxiv.2506.22139
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: