March 18, 2024Open Access

VideoAgent : un agent multimodal avec mémoire augmentée pour la compréhension vidéo

Key Points

Key points are not available for this paper at this time.

Abstract

Nous explorons comment la réconciliation de plusieurs modèles fondamentaux (grands modèles de langage et modèles vision-langage) avec un nouveau mécanisme de mémoire unifiée pourrait aborder le problème complexe de la compréhension vidéo, en particulier la capture des relations temporelles à long terme dans des vidéos longues. En particulier, l'agent multimodal proposé VideoAgent : 1) construit une mémoire structurée pour stocker à la fois les descriptions génériques des événements temporels et les états de suivi centrés sur les objets de la vidéo ; 2) donné une requête de tâche en entrée, il utilise des outils incluant la localisation de segments vidéo et la requête de mémoire d'objets ainsi que d'autres modèles fondamentaux visuels pour résoudre la tâche de manière interactive, en utilisant la capacité d'utilisation d'outils en zéro-shot des LLM. VideoAgent démontre des performances impressionnantes sur plusieurs benchmarks de compréhension vidéo à long horizon, avec une augmentation moyenne de 6,6 % sur NExT-QA et de 26,0 % sur EgoSchema par rapport aux bases de référence, réduisant l'écart entre les modèles open source et leurs homologues privés, dont Gemini 1.5 Pro.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yue Fan

Xiaojian Ma

Rujie Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VideoAgent : un agent multimodal avec mémoire augmentée pour la compréhension vidéo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider