June 11, 2024Open Access

VideoLLaMA 2: Avanzando en el Modelado Espacio-Temporal y la Comprensión Auditiva en Video-LLMs

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

En este artículo, presentamos VideoLLaMA 2, un conjunto de Modelos de Lenguaje Grandes para Video (Video-LLMs) diseñados para mejorar el modelado espacio-temporal y la comprensión auditiva en tareas orientadas a video y audio. Basándose en su predecesor, VideoLLaMA 2 incorpora un conector Espacio-Temporal Convolucional (STC) hecho a medida, que captura eficazmente las complejas dinámicas espaciales y temporales de los datos de video. Además, integramos una Rama de Audio en el modelo mediante entrenamiento conjunto, enriqueciendo así las capacidades de comprensión multimodal del modelo al incorporar sin problemas señales de audio. Evaluaciones exhaustivas en tareas de respuesta a preguntas de video de opción múltiple (MC-VQA), respuesta a preguntas de video abiertas (OE-VQA) y generación de descripciones de video (VC) demuestran que VideoLLaMA 2 alcanza consistentemente resultados competitivos entre los modelos de código abierto e incluso se acerca a algunos modelos propietarios en varios puntos de referencia. Además, VideoLLaMA 2 muestra mejoras razonables en los puntos de referencia de respuesta a preguntas solo con audio y con audio-video (AQA y OE-AVQA) sobre modelos existentes. Estos avances subrayan el desempeño superior de VideoLLaMA 2 en comprensión multimodal, estableciendo un nuevo estándar para sistemas inteligentes de análisis de video. Todos los modelos son públicos para facilitar investigaciones futuras.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zesen Cheng

Sicong Leng

Hang Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VideoLLaMA 2: Avanzando en el Modelado Espacio-Temporal y la Comprensión Auditiva en Video-LLMs

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider