Los puntos clave no están disponibles para este artículo en este momento.
Los grandes modelos multimodales (LMMs) están procesando entradas cada vez más largas y ricas. A pesar del progreso, hay pocos benchmarks públicos disponibles para medir este desarrollo. Para mitigar esta brecha, presentamos LongVideoBench, un benchmark de preguntas y respuestas que presenta entradas entrelazadas de video y lenguaje de hasta una hora de duración. Nuestro benchmark incluye 3,763 videos de longitud variable recogidos de la web con sus subtítulos sobre diversos temas, diseñado para evaluar de forma exhaustiva a los LMMs en la comprensión multimodal a largo plazo. Para lograr esto, interpretamos el desafío principal como el de recuperar con precisión y razonar sobre información multimodal detallada de entradas largas. Por ello, formulamos una nueva tarea de preguntas y respuestas sobre video denominada razonamiento referencial. Específicamente, como parte de la pregunta, contiene una consulta referencial que hace referencia a contextos de video relacionados, llamados contexto referido. Luego se requiere que el modelo razone sobre detalles relevantes del video dentro del contexto referido. Siguiendo el paradigma del razonamiento referencial, seleccionamos 6,678 preguntas de opción múltiple anotadas por humanos en 17 categorías detalladas, estableciendo uno de los benchmarks más completos para la comprensión de videos de formato largo. Las evaluaciones sugieren que LongVideoBench presenta desafíos significativos incluso para los modelos propietarios más avanzados (p.ej. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), mientras que sus contrapartes de código abierto muestran una brecha de rendimiento aún mayor. Además, nuestros resultados indican que el rendimiento del modelo en el benchmark mejora únicamente cuando son capaces de procesar más cuadros, posicionando a LongVideoBench como un benchmark valioso para evaluar LMMs de próxima generación con contexto largo.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haoning Wu
Dongxu Li
Bei Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e5f93bb6db64358758d71f — DOI: https://doi.org/10.48550/arxiv.2407.15754
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: