June 1, 2018

Legenda de Vídeo Densa de Ponta a Ponta com Transformer Mascarado

Key Points

Key points are not available for this paper at this time.

Abstract

Legenda de vídeo densa tem como objetivo gerar descrições em texto para todos os eventos em um vídeo não editado. Isso envolve tanto detectar quanto descrever eventos. Portanto, todos os métodos anteriores para legenda de vídeo densa enfrentam esse problema construindo dois modelos, ou seja, um modelo de proposta de evento e um modelo de legendagem, para esses dois subproblemas. Os modelos são treinados separadamente ou alternadamente. Isso impede a influência direta da descrição em linguagem na proposta de evento, o que é importante para gerar descrições precisas. Para resolver esse problema, propomos um modelo transformer de ponta a ponta para legenda de vídeo densa. O codificador codifica o vídeo em representações apropriadas. O decodificador de proposta decodifica a partir da codificação com âncoras diferentes para formar propostas de evento do vídeo. O decodificador de legendagem emprega uma rede de mascaramento para restringir sua atenção ao evento proposto sobre a característica da codificação. Essa rede de mascaramento converte a proposta de evento em uma máscara diferenciável, o que assegura a consistência entre a proposta e a legendagem durante o treinamento. Além disso, nosso modelo emprega um mecanismo de autoatenção, permitindo o uso de estrutura eficiente não recorrente durante a codificação e levando a melhorias de desempenho. Demonstramos a eficácia deste modelo de ponta a ponta nos conjuntos de dados ActivityNet Captions e YouCookII, onde alcançamos 10.12 e 6.58 de pontuação METEOR, respectivamente.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Luowei Zhou

Yingbo Zhou

Jason J. Corso

Actions

Institutions

University of Michigan

Salesforce (United States)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Legenda de Vídeo Densa de Ponta a Ponta com Transformer Mascarado

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider