March 18, 2024Open Access

VideoAgent: Ein speicherunterstützter multimodaler Agent für das Videoverständnis

Key Points

Key points are not available for this paper at this time.

Abstract

Wir untersuchen, wie die Versöhnung mehrerer Foundation-Modelle (große Sprachmodelle und Vision-Sprach-Modelle) mit einem neuartigen einheitlichen Speichersystem das herausfordernde Problem des Videoverstehens angehen kann, insbesondere die Erfassung langfristiger zeitlicher Beziehungen in langen Videos. Insbesondere konstruiert der vorgeschlagene multimodale Agent VideoAgent: 1) einen strukturierten Speicher, um sowohl allgemeine temporale Ereignisbeschreibungen als auch objektzentrierte Tracking-Zustände des Videos zu speichern; 2) bei Eingabe einer Aufgabenanfrage setzt er Werkzeuge ein, einschließlich der Lokalisierung von Videosegmenten und der Abfrage des Objektgedächtnisses sowie andere visuelle Foundation-Modelle, um die Aufgabe interaktiv zu lösen, wobei die Zero-Shot-Werkzeugnutzung von LLMs genutzt wird. VideoAgent zeigt beeindruckende Leistungen in mehreren Langzeit-Videoverständnis-Benchmarks, mit einer durchschnittlichen Steigerung von 6,6 % bei NExT-QA und 26,0 % bei EgoSchema im Vergleich zu Basismodellen, wodurch die Lücke zwischen Open-Source-Modellen und privaten Pendants wie Gemini 1.5 Pro geschlossen wird.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Fan et al. (Mon,) untersuchten diese Frage.

www.synapsesocial.com/papers/68e73a7cb6db6435876b3b16 — DOI: https://doi.org/10.48550/arxiv.2403.11481

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Authors

Yue Fan

Xiaojian Ma

Rujie Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VideoAgent: Ein speicherunterstützter multimodaler Agent für das Videoverständnis

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion