May 22, 2024Open Access

VTG-LLM: Integration von Zeitstempelwissen in Video-LLMs zur verbesserten zeitlichen Verankerung von Videos

Key Points

Key points are not available for this paper at this time.

Abstract

Video Temporal Grounding (VTG) konzentriert sich darauf, Ereigniszeitstempel innerhalb eines bestimmten Videos basierend auf einer sprachlichen Anfrage genau zu identifizieren und spielt eine wichtige Rolle bei nachgelagerten Aufgaben wie Video-Browsing und -Bearbeitung. Während Video Large Language Models (Video LLMs) bedeutende Fortschritte beim Verständnis von Videoinhalten gemacht haben, haben sie oft Schwierigkeiten, Zeitstempel innerhalb von Videos genau zu lokalisieren, was ihre Leistung bei VTG-Aufgaben einschränkt. Daher sind unserer Meinung nach zwei entscheidende Aspekte zu verbessern, um die Fähigkeit von Video-LLMs zur effektiven Lokalisierung von Zeitstempeln zu steigern. Erstens ist es wesentlich, hochwertige Instruction-Tuning-Datensätze zu haben, die gängige VTG-Aufgaben abdecken. Zweitens ist die direkte Einbindung von Zeitstempelwissen in Video-LLMs entscheidend, da sie den Modellen ermöglicht, Zeitstempelinformationen effizient zu verstehen. Um diese Anforderungen zu erfüllen, stellen wir zunächst VTG-IT-120K vor, einen hochwertigen und umfassenden Instruction-Tuning-Datensatz, der VTG-Aufgaben wie Moment-Retrieval, dichte Video-Untertitelung, Video-Zusammenfassung und Video-Highlight-Erkennung abdeckt. Darüber hinaus schlagen wir ein speziell entwickeltes Video-LLM-Modell für VTG-Aufgaben vor, VTG-LLM, das (1) Zeitstempelwissen effektiv in visuelle Tokens integriert; (2) absolute Zeit-Tokens einbindet, die speziell Zeitstempelwissen handhaben, um Konzeptverschiebungen zu vermeiden; und (3) eine leichte, leistungsstarke slotbasierte Token-Kompressionsmethode einführt, um das Sampling von mehr Videobildern zu erleichtern. Umfassende Experimente zeigen die überlegene Leistung von VTG-LLM im Vergleich zu anderen Video-LLM-Methoden bei verschiedenen VTG-Aufgaben. Unser Code und die Datensätze sind verfügbar unter https: //github. com/gyxxyg/VTG-LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yongxin Guo

Jingyu Liu

Mingda Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

VTG-LLM: Integration von Zeitstempelwissen in Video-LLMs zur verbesserten zeitlichen Verankerung von Videos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider