June 11, 2024Open Access

VideoLLaMA 2 : Avancées dans la modélisation spatio-temporelle et la compréhension audio dans les Video-LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

Dans cet article, nous présentons VideoLLaMA 2, un ensemble de modèles de langage larges pour vidéo (Video-LLMs) conçus pour améliorer la modélisation spatio-temporelle et la compréhension audio dans les tâches orientées vidéo et audio. S'appuyant sur son prédécesseur, VideoLLaMA 2 intègre un connecteur convolutionnel spatio-temporel (STC) sur mesure, qui capture efficacement les dynamiques spatiales et temporelles complexes des données vidéo. De plus, nous intégrons une branche audio dans le modèle via un entraînement conjoint, enrichissant ainsi les capacités de compréhension multimodale du modèle en incorporant harmonieusement les indices audio. Des évaluations complètes sur les tâches de questionnement vidéo à choix multiple (MC-VQA), questionnement vidéo à réponse ouverte (OE-VQA) et légendage vidéo (VC) démontrent que VideoLLaMA 2 atteint systématiquement des résultats compétitifs parmi les modèles open-source et s'approche même de certains modèles propriétaires sur plusieurs benchmarks. En outre, VideoLLaMA 2 montre des améliorations notables dans les benchmarks de question-réponse audio seule et audio-vidéo (AQA & OE-AVQA) par rapport aux modèles existants. Ces avancées soulignent la performance supérieure de VideoLLaMA 2 en compréhension multimodale, établissant une nouvelle norme pour les systèmes intelligents d'analyse vidéo. Tous les modèles sont rendus publics pour faciliter la recherche ultérieure.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zesen Cheng

Sicong Leng

Hang Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VideoLLaMA 2 : Avancées dans la modélisation spatio-temporelle et la compréhension audio dans les Video-LLMs

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider