Key points are not available for this paper at this time.
Legenda de vídeo densa tem como objetivo gerar descrições em texto para todos os eventos em um vídeo não editado. Isso envolve tanto detectar quanto descrever eventos. Portanto, todos os métodos anteriores para legenda de vídeo densa enfrentam esse problema construindo dois modelos, ou seja, um modelo de proposta de evento e um modelo de legendagem, para esses dois subproblemas. Os modelos são treinados separadamente ou alternadamente. Isso impede a influência direta da descrição em linguagem na proposta de evento, o que é importante para gerar descrições precisas. Para resolver esse problema, propomos um modelo transformer de ponta a ponta para legenda de vídeo densa. O codificador codifica o vídeo em representações apropriadas. O decodificador de proposta decodifica a partir da codificação com âncoras diferentes para formar propostas de evento do vídeo. O decodificador de legendagem emprega uma rede de mascaramento para restringir sua atenção ao evento proposto sobre a característica da codificação. Essa rede de mascaramento converte a proposta de evento em uma máscara diferenciável, o que assegura a consistência entre a proposta e a legendagem durante o treinamento. Além disso, nosso modelo emprega um mecanismo de autoatenção, permitindo o uso de estrutura eficiente não recorrente durante a codificação e levando a melhorias de desempenho. Demonstramos a eficácia deste modelo de ponta a ponta nos conjuntos de dados ActivityNet Captions e YouCookII, onde alcançamos 10.12 e 6.58 de pontuação METEOR, respectivamente.
Building similarity graph...
Analyzing shared references across papers
Loading...
Luowei Zhou
Yingbo Zhou
Jason J. Corso
University of Michigan
Salesforce (United States)
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (Sex,) estudaram esta questão.
www.synapsesocial.com/papers/6a0901a42142fc3a3073b465 — DOI: https://doi.org/10.1109/cvpr.2018.00911
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: