June 25, 2024Open Access

MLLM en tant que narrateur vidéo : atténuer le déséquilibre de modalité dans la récupération de moments vidéo

Key Points

Key points are not available for this paper at this time.

Abstract

La récupération de moments vidéo (VMR) vise à localiser un segment temporel spécifique dans une vidéo longue non découpée à partir d'une requête en langage naturel. Les méthodes existantes souffrent souvent d'annotations d'entraînement inadéquates, c’est-à-dire que la phrase correspond typiquement à une fraction du contenu vidéo proéminent au premier plan avec une diversité lexicale limitée. Ce déséquilibre intrinsèque de modalité laisse une portion considérable d'informations visuelles sans alignement avec le texte. Cela limite la connaissance d’alignement intermodal au sein d’un corpus textuel restreint, conduisant ainsi à une modélisation visuo-textuelle sous-optimale et à une mauvaise généralisabilité. En tirant parti de la capacité de compréhension visuo-textuelle des modèles de langage large multimodaux (MLLM), dans ce travail, nous utilisons un MLLM comme narrateur vidéo pour générer des descriptions textuelles plausibles de la vidéo, atténuant ainsi le déséquilibre de modalité et améliorant la localisation temporelle. Pour maintenir efficacement la sensibilité temporelle lors de la localisation, nous concevons des narrations textuelles pour chaque instant précis de la vidéo et construisons un paragraphe textuel structuré incluant l’information temporelle, temporellement aligné avec le contenu visuel. Ensuite, nous réalisons une fusion des caractéristiques intermodales entre les narrations temporellement conscientes et les caractéristiques temporelles vidéo correspondantes pour produire des séquences de représentation vidéo enrichies sémantiquement pour la localisation de la requête. Par la suite, nous introduisons un mécanisme d’appariement narratif-requête unimodal, encourageant le modèle à extraire des informations complémentaires à partir de descriptions contextuelles cohésives pour une récupération améliorée. Des expériences approfondies sur deux benchmarks démontrent l’efficacité et la généralisabilité de notre méthode proposée.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Weitong Cai

Jiabo Huang

Shaogang Gong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MLLM en tant que narrateur vidéo : atténuer le déséquilibre de modalité dans la récupération de moments vidéo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study