April 8, 2024Open Access

MA-LMM : Modèle Multimodal Large Augmenté de Mémoire pour la Compréhension Vidéo à Long Terme

Key Points

Key points are not available for this paper at this time.

Abstract

Avec le succès des grands modèles de langage (LLMs), l'intégration du modèle de vision dans les LLMs pour construire des modèles fondamentaux vision-langage a récemment suscité beaucoup plus d'intérêt. Cependant, les modèles multimodaux larges basés sur LLM existants (par exemple, Video-LLaMA, VideoChat) ne peuvent traiter qu'un nombre limité d'images pour la compréhension de courtes vidéos. Dans cette étude, nous nous concentrons principalement sur la conception d'un modèle efficace pour la compréhension vidéo à long terme. Plutôt que d'essayer de traiter simultanément plus d'images comme la plupart des travaux existants, nous proposons de traiter les vidéos de manière en ligne et de stocker les informations vidéo passées dans une banque de mémoire. Cela permet à notre modèle de référencer le contenu vidéo historique pour une analyse à long terme sans dépasser les limites de longueur de contexte des LLMs ou les limites de mémoire GPU. Notre banque de mémoire peut être intégrée de manière transparente dans les LLM multimodaux actuels sans modification. Nous réalisons des expériences étendues sur diverses tâches de compréhension vidéo, telles que la compréhension de vidéos longues, la réponse à des questions vidéo et la génération de légendes vidéo, et notre modèle peut atteindre des performances à la pointe de l'état de l'art sur plusieurs jeux de données. Code disponible sur https://boheumd.github.io/MA-LMM/.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bo He

Hengduo Li

Young Kyun Jang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MA-LMM : Modèle Multimodal Large Augmenté de Mémoire pour la Compréhension Vidéo à Long Terme

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider