Key points are not available for this paper at this time.
Nous explorons comment la réconciliation de plusieurs modèles fondamentaux (grands modèles de langage et modèles vision-langage) avec un nouveau mécanisme de mémoire unifiée pourrait aborder le problème complexe de la compréhension vidéo, en particulier la capture des relations temporelles à long terme dans des vidéos longues. En particulier, l'agent multimodal proposé VideoAgent : 1) construit une mémoire structurée pour stocker à la fois les descriptions génériques des événements temporels et les états de suivi centrés sur les objets de la vidéo ; 2) donné une requête de tâche en entrée, il utilise des outils incluant la localisation de segments vidéo et la requête de mémoire d'objets ainsi que d'autres modèles fondamentaux visuels pour résoudre la tâche de manière interactive, en utilisant la capacité d'utilisation d'outils en zéro-shot des LLM. VideoAgent démontre des performances impressionnantes sur plusieurs benchmarks de compréhension vidéo à long horizon, avec une augmentation moyenne de 6,6 % sur NExT-QA et de 26,0 % sur EgoSchema par rapport aux bases de référence, réduisant l'écart entre les modèles open source et leurs homologues privés, dont Gemini 1.5 Pro.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yue Fan
Xiaojian Ma
Rujie Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Fan et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e73a7cb6db6435876b3b16 — DOI: https://doi.org/10.48550/arxiv.2403.11481
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: