Key points are not available for this paper at this time.
Avec le succès des grands modèles de langage (LLMs), l'intégration du modèle de vision dans les LLMs pour construire des modèles fondamentaux vision-langage a récemment suscité beaucoup plus d'intérêt. Cependant, les modèles multimodaux larges basés sur LLM existants (par exemple, Video-LLaMA, VideoChat) ne peuvent traiter qu'un nombre limité d'images pour la compréhension de courtes vidéos. Dans cette étude, nous nous concentrons principalement sur la conception d'un modèle efficace pour la compréhension vidéo à long terme. Plutôt que d'essayer de traiter simultanément plus d'images comme la plupart des travaux existants, nous proposons de traiter les vidéos de manière en ligne et de stocker les informations vidéo passées dans une banque de mémoire. Cela permet à notre modèle de référencer le contenu vidéo historique pour une analyse à long terme sans dépasser les limites de longueur de contexte des LLMs ou les limites de mémoire GPU. Notre banque de mémoire peut être intégrée de manière transparente dans les LLM multimodaux actuels sans modification. Nous réalisons des expériences étendues sur diverses tâches de compréhension vidéo, telles que la compréhension de vidéos longues, la réponse à des questions vidéo et la génération de légendes vidéo, et notre modèle peut atteindre des performances à la pointe de l'état de l'art sur plusieurs jeux de données. Code disponible sur https://boheumd.github.io/MA-LMM/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bo He
Hengduo Li
Young Kyun Jang
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e700f4b6db64358767b335 — DOI: https://doi.org/10.48550/arxiv.2404.05726
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: