July 22, 2024Open Access

LongVideoBench: Un punto de referencia para la comprensión entrelazada de video y lenguaje con contexto largo

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los grandes modelos multimodales (LMMs) están procesando entradas cada vez más largas y ricas. A pesar del progreso, hay pocos benchmarks públicos disponibles para medir este desarrollo. Para mitigar esta brecha, presentamos LongVideoBench, un benchmark de preguntas y respuestas que presenta entradas entrelazadas de video y lenguaje de hasta una hora de duración. Nuestro benchmark incluye 3,763 videos de longitud variable recogidos de la web con sus subtítulos sobre diversos temas, diseñado para evaluar de forma exhaustiva a los LMMs en la comprensión multimodal a largo plazo. Para lograr esto, interpretamos el desafío principal como el de recuperar con precisión y razonar sobre información multimodal detallada de entradas largas. Por ello, formulamos una nueva tarea de preguntas y respuestas sobre video denominada razonamiento referencial. Específicamente, como parte de la pregunta, contiene una consulta referencial que hace referencia a contextos de video relacionados, llamados contexto referido. Luego se requiere que el modelo razone sobre detalles relevantes del video dentro del contexto referido. Siguiendo el paradigma del razonamiento referencial, seleccionamos 6,678 preguntas de opción múltiple anotadas por humanos en 17 categorías detalladas, estableciendo uno de los benchmarks más completos para la comprensión de videos de formato largo. Las evaluaciones sugieren que LongVideoBench presenta desafíos significativos incluso para los modelos propietarios más avanzados (p.ej. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), mientras que sus contrapartes de código abierto muestran una brecha de rendimiento aún mayor. Además, nuestros resultados indican que el rendimiento del modelo en el benchmark mejora únicamente cuando son capaces de procesar más cuadros, posicionando a LongVideoBench como un benchmark valioso para evaluar LMMs de próxima generación con contexto largo.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoning Wu

Dongxu Li

Bei Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LongVideoBench: Un punto de referencia para la comprensión entrelazada de video y lenguaje con contexto largo

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider