Key points are not available for this paper at this time.
Die Video-Moment-Suche (VMR) zielt darauf ab, ein spezifisches zeitliches Segment in einem ungeschnittenen langen Video anhand einer natürlichen Sprachabfrage zu lokalisieren. Bestehende Methoden leiden oft unter unzureichenden Trainingsannotationen, d.h., der Satz passt typischerweise nur zu einem Bruchteil des hervorgehobenen Videoinhalts im Vordergrund mit begrenzter Wortvielfalt. Dieses intrinsische Modalitätsungleichgewicht lässt einen beträchtlichen Teil der visuellen Informationen unaligned gegenüber dem Text. Es beschränkt das Wissen zur multimodalen Ausrichtung auf den Umfang eines begrenzten Textkorpus, was zu suboptimalen visuellen-textuellen Modellen und schlechter Generalisierbarkeit führt. Durch die Nutzung der visuellen-textuellen Verständnisfähigkeit multimodaler großer Sprachmodelle (MLLM) nehmen wir in dieser Arbeit ein MLLM als Videoerzähler, um plausible textuelle Beschreibungen des Videos zu generieren, wodurch das Modalitätsungleichgewicht gemindert und die zeitliche Lokalisierung verbessert wird. Um die zeitliche Sensibilität für die Lokalisierung effektiv zu erhalten, gestalten wir Textnarrative für jeden bestimmten Videozeitstempel und erstellen einen strukturierten Textabschnitt mit Zeitinformationen, der zeitlich mit dem visuellen Inhalt ausgerichtet ist. Anschließend führen wir eine multimodale Merkmalsfusion zwischen den zeitbewussten Narrativen und den entsprechenden temporalen Videofunktionen durch, um semantisch verbesserte Videodarstellungssequenzen für die Abfragelokalisierung zu erzeugen. Danach führen wir einen unimodalen Narrative-Query-Abgleichsmechanismus ein, der das Modell dazu anregt, ergänzende Informationen aus kontextuell kohärenten Beschreibungen für eine verbesserte Suche zu extrahieren. Umfangreiche Experimente an zwei Benchmark-Datensätzen zeigen die Effektivität und Generalisierbarkeit unserer vorgeschlagenen Methode.
Building similarity graph...
Analyzing shared references across papers
Loading...
Weitong Cai
Jiabo Huang
Shaogang Gong
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai et al. (Tue,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e636c5b6db6435875c8d02 — DOI: https://doi.org/10.48550/arxiv.2406.17880
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: