March 24, 2024Open Access

Localização Transferível de Momentos em Vídeo por Consulta Guiada por Momentos

Key Points

Key points are not available for this paper at this time.

Abstract

A localização de momentos em vídeos é uma tarefa crucial no campo da visão computacional, envolvendo a identificação de momentos temporais em vídeos não editados que tenham relevância semântica para as consultas em linguagem natural fornecidas. Este trabalho investiga um aspecto relativamente inexplorado da tarefa: a transferibilidade dos modelos de localização de momentos em vídeo. Essa questão é abordada por meio da avaliação dos modelos de localização de momentos em um cenário de transferência entre domínios. Nessa configuração, selecionamos múltiplos conjuntos de dados que apresentam diferenças significativas entre domínios. O modelo é treinado em um desses conjuntos, enquanto a validação e os testes são realizados utilizando os conjuntos restantes. Para enfrentar os desafios inerentes a esse cenário, inspiramo-nos nos recentes modelos pré-treinados de visão e linguagem em larga escala. Nosso foco está em explorar como a utilização estratégica desses recursos pode fortalecer as capacidades de um modelo projetado para localização de momentos em vídeo. No entanto, a distribuição das consultas em linguagem na localização de momentos em vídeo geralmente difere do texto usado pelos modelos pré-treinados, apresentando distinções em aspectos como comprimento, conteúdo, expressão e outros. Para mitigar essa lacuna, este trabalho propõe um método denominado Moment-Guided Query Prompting (MGQP) para localização de momentos em vídeo. Nossa ideia central é gerar múltiplas primícias de prompt distintas e complementares por meio da estratificação das consultas originais. Nossa abordagem é composta por um construtor de primícias de prompt, um refinador multimodal de prompts e um incorporador holístico de prompts. Realizamos experimentos extensivos nos conjuntos de dados Charades-STA, TACoS, DiDeMo e YouCookII, e investigamos a eficácia do método proposto utilizando diversos modelos pré-treinados, como CLIP, ActionCLIP, CLIP4Clip e VideoCLIP. Os resultados experimentais demonstram a efetividade do nosso método proposto.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hao Jiang

Yang Yizhang

Yadong Mu

Actions

Institutions

Peking University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Jiang et al. (Sun,) estudaram essa questão.

www.synapsesocial.com/papers/68e72a6ab6db6435876a3f82 — DOI: https://doi.org/10.1609/aaai.v38i3.28028

Also consider

Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context:

Decoupled Weight Decay Regularization· 2017 · 9,074 citations
Bridge-Prompt: Towards Ordinal Action Understanding in Instructional Videos· 2022 · 4 citations
Collecting Highly Parallel Data for Paraphrase Evaluation· 2011 · 807 citations

Localização Transferível de Momentos em Vídeo por Consulta Guiada por Momentos

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider