Key points are not available for this paper at this time.
A localização de momentos em vídeos é uma tarefa crucial no campo da visão computacional, envolvendo a identificação de momentos temporais em vídeos não editados que tenham relevância semântica para as consultas em linguagem natural fornecidas. Este trabalho investiga um aspecto relativamente inexplorado da tarefa: a transferibilidade dos modelos de localização de momentos em vídeo. Essa questão é abordada por meio da avaliação dos modelos de localização de momentos em um cenário de transferência entre domínios. Nessa configuração, selecionamos múltiplos conjuntos de dados que apresentam diferenças significativas entre domínios. O modelo é treinado em um desses conjuntos, enquanto a validação e os testes são realizados utilizando os conjuntos restantes. Para enfrentar os desafios inerentes a esse cenário, inspiramo-nos nos recentes modelos pré-treinados de visão e linguagem em larga escala. Nosso foco está em explorar como a utilização estratégica desses recursos pode fortalecer as capacidades de um modelo projetado para localização de momentos em vídeo. No entanto, a distribuição das consultas em linguagem na localização de momentos em vídeo geralmente difere do texto usado pelos modelos pré-treinados, apresentando distinções em aspectos como comprimento, conteúdo, expressão e outros. Para mitigar essa lacuna, este trabalho propõe um método denominado Moment-Guided Query Prompting (MGQP) para localização de momentos em vídeo. Nossa ideia central é gerar múltiplas primícias de prompt distintas e complementares por meio da estratificação das consultas originais. Nossa abordagem é composta por um construtor de primícias de prompt, um refinador multimodal de prompts e um incorporador holístico de prompts. Realizamos experimentos extensivos nos conjuntos de dados Charades-STA, TACoS, DiDeMo e YouCookII, e investigamos a eficácia do método proposto utilizando diversos modelos pré-treinados, como CLIP, ActionCLIP, CLIP4Clip e VideoCLIP. Os resultados experimentais demonstram a efetividade do nosso método proposto.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Jiang
Yang Yizhang
Yadong Mu
Peking University
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiang et al. (Sun,) estudaram essa questão.
www.synapsesocial.com/papers/68e72a6ab6db6435876a3f82 — DOI: https://doi.org/10.1609/aaai.v38i3.28028
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: