Key points are not available for this paper at this time.
Wir untersuchen, wie die Versöhnung mehrerer Foundation-Modelle (große Sprachmodelle und Vision-Sprach-Modelle) mit einem neuartigen einheitlichen Speichersystem das herausfordernde Problem des Videoverstehens angehen kann, insbesondere die Erfassung langfristiger zeitlicher Beziehungen in langen Videos. Insbesondere konstruiert der vorgeschlagene multimodale Agent VideoAgent: 1) einen strukturierten Speicher, um sowohl allgemeine temporale Ereignisbeschreibungen als auch objektzentrierte Tracking-Zustände des Videos zu speichern; 2) bei Eingabe einer Aufgabenanfrage setzt er Werkzeuge ein, einschließlich der Lokalisierung von Videosegmenten und der Abfrage des Objektgedächtnisses sowie andere visuelle Foundation-Modelle, um die Aufgabe interaktiv zu lösen, wobei die Zero-Shot-Werkzeugnutzung von LLMs genutzt wird. VideoAgent zeigt beeindruckende Leistungen in mehreren Langzeit-Videoverständnis-Benchmarks, mit einer durchschnittlichen Steigerung von 6,6 % bei NExT-QA und 26,0 % bei EgoSchema im Vergleich zu Basismodellen, wodurch die Lücke zwischen Open-Source-Modellen und privaten Pendants wie Gemini 1.5 Pro geschlossen wird.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fan et al. (Mon,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e73a7cb6db6435876b3b16 — DOI: https://doi.org/10.48550/arxiv.2403.11481
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Yue Fan
Xiaojian Ma
Rujie Wu
Building similarity graph...
Analyzing shared references across papers
Loading...