June 25, 2024Open Access

MLLM als Videoerzähler: Minderung des Modalitätsungleichgewichts bei der Video-Moment-Suche

Key Points

Key points are not available for this paper at this time.

Abstract

Die Video-Moment-Suche (VMR) zielt darauf ab, ein spezifisches zeitliches Segment in einem ungeschnittenen langen Video anhand einer natürlichen Sprachabfrage zu lokalisieren. Bestehende Methoden leiden oft unter unzureichenden Trainingsannotationen, d.h., der Satz passt typischerweise nur zu einem Bruchteil des hervorgehobenen Videoinhalts im Vordergrund mit begrenzter Wortvielfalt. Dieses intrinsische Modalitätsungleichgewicht lässt einen beträchtlichen Teil der visuellen Informationen unaligned gegenüber dem Text. Es beschränkt das Wissen zur multimodalen Ausrichtung auf den Umfang eines begrenzten Textkorpus, was zu suboptimalen visuellen-textuellen Modellen und schlechter Generalisierbarkeit führt. Durch die Nutzung der visuellen-textuellen Verständnisfähigkeit multimodaler großer Sprachmodelle (MLLM) nehmen wir in dieser Arbeit ein MLLM als Videoerzähler, um plausible textuelle Beschreibungen des Videos zu generieren, wodurch das Modalitätsungleichgewicht gemindert und die zeitliche Lokalisierung verbessert wird. Um die zeitliche Sensibilität für die Lokalisierung effektiv zu erhalten, gestalten wir Textnarrative für jeden bestimmten Videozeitstempel und erstellen einen strukturierten Textabschnitt mit Zeitinformationen, der zeitlich mit dem visuellen Inhalt ausgerichtet ist. Anschließend führen wir eine multimodale Merkmalsfusion zwischen den zeitbewussten Narrativen und den entsprechenden temporalen Videofunktionen durch, um semantisch verbesserte Videodarstellungssequenzen für die Abfragelokalisierung zu erzeugen. Danach führen wir einen unimodalen Narrative-Query-Abgleichsmechanismus ein, der das Modell dazu anregt, ergänzende Informationen aus kontextuell kohärenten Beschreibungen für eine verbesserte Suche zu extrahieren. Umfangreiche Experimente an zwei Benchmark-Datensätzen zeigen die Effektivität und Generalisierbarkeit unserer vorgeschlagenen Methode.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Weitong Cai

Jiabo Huang

Shaogang Gong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MLLM als Videoerzähler: Minderung des Modalitätsungleichgewichts bei der Video-Moment-Suche

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider