Key points are not available for this paper at this time.
La récupération de moments vidéo (VMR) vise à localiser un segment temporel spécifique dans une vidéo longue non découpée à partir d'une requête en langage naturel. Les méthodes existantes souffrent souvent d'annotations d'entraînement inadéquates, c’est-à-dire que la phrase correspond typiquement à une fraction du contenu vidéo proéminent au premier plan avec une diversité lexicale limitée. Ce déséquilibre intrinsèque de modalité laisse une portion considérable d'informations visuelles sans alignement avec le texte. Cela limite la connaissance d’alignement intermodal au sein d’un corpus textuel restreint, conduisant ainsi à une modélisation visuo-textuelle sous-optimale et à une mauvaise généralisabilité. En tirant parti de la capacité de compréhension visuo-textuelle des modèles de langage large multimodaux (MLLM), dans ce travail, nous utilisons un MLLM comme narrateur vidéo pour générer des descriptions textuelles plausibles de la vidéo, atténuant ainsi le déséquilibre de modalité et améliorant la localisation temporelle. Pour maintenir efficacement la sensibilité temporelle lors de la localisation, nous concevons des narrations textuelles pour chaque instant précis de la vidéo et construisons un paragraphe textuel structuré incluant l’information temporelle, temporellement aligné avec le contenu visuel. Ensuite, nous réalisons une fusion des caractéristiques intermodales entre les narrations temporellement conscientes et les caractéristiques temporelles vidéo correspondantes pour produire des séquences de représentation vidéo enrichies sémantiquement pour la localisation de la requête. Par la suite, nous introduisons un mécanisme d’appariement narratif-requête unimodal, encourageant le modèle à extraire des informations complémentaires à partir de descriptions contextuelles cohésives pour une récupération améliorée. Des expériences approfondies sur deux benchmarks démontrent l’efficacité et la généralisabilité de notre méthode proposée.
Building similarity graph...
Analyzing shared references across papers
Loading...
Weitong Cai
Jiabo Huang
Shaogang Gong
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai et al. (Tue,) ont étudié cette question.
www.synapsesocial.com/papers/68e636c5b6db6435875c8d02 — DOI: https://doi.org/10.48550/arxiv.2406.17880