Key points are not available for this paper at this time.
Video Temporal Grounding (VTG) konzentriert sich darauf, Ereigniszeitstempel innerhalb eines bestimmten Videos basierend auf einer sprachlichen Anfrage genau zu identifizieren und spielt eine wichtige Rolle bei nachgelagerten Aufgaben wie Video-Browsing und -Bearbeitung. Während Video Large Language Models (Video LLMs) bedeutende Fortschritte beim Verständnis von Videoinhalten gemacht haben, haben sie oft Schwierigkeiten, Zeitstempel innerhalb von Videos genau zu lokalisieren, was ihre Leistung bei VTG-Aufgaben einschränkt. Daher sind unserer Meinung nach zwei entscheidende Aspekte zu verbessern, um die Fähigkeit von Video-LLMs zur effektiven Lokalisierung von Zeitstempeln zu steigern. Erstens ist es wesentlich, hochwertige Instruction-Tuning-Datensätze zu haben, die gängige VTG-Aufgaben abdecken. Zweitens ist die direkte Einbindung von Zeitstempelwissen in Video-LLMs entscheidend, da sie den Modellen ermöglicht, Zeitstempelinformationen effizient zu verstehen. Um diese Anforderungen zu erfüllen, stellen wir zunächst VTG-IT-120K vor, einen hochwertigen und umfassenden Instruction-Tuning-Datensatz, der VTG-Aufgaben wie Moment-Retrieval, dichte Video-Untertitelung, Video-Zusammenfassung und Video-Highlight-Erkennung abdeckt. Darüber hinaus schlagen wir ein speziell entwickeltes Video-LLM-Modell für VTG-Aufgaben vor, VTG-LLM, das (1) Zeitstempelwissen effektiv in visuelle Tokens integriert; (2) absolute Zeit-Tokens einbindet, die speziell Zeitstempelwissen handhaben, um Konzeptverschiebungen zu vermeiden; und (3) eine leichte, leistungsstarke slotbasierte Token-Kompressionsmethode einführt, um das Sampling von mehr Videobildern zu erleichtern. Umfassende Experimente zeigen die überlegene Leistung von VTG-LLM im Vergleich zu anderen Video-LLM-Methoden bei verschiedenen VTG-Aufgaben. Unser Code und die Datensätze sind verfügbar unter https: //github. com/gyxxyg/VTG-LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yongxin Guo
Jingyu Liu
Mingda Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo et al. (Wed,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e68fa6b6db643587616653 — DOI: https://doi.org/10.48550/arxiv.2405.13382
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: