March 26, 2024Open Access

OmniVid: Uma Estrutura Generativa para Compreensão Universal de Vídeo

Key Points

Key points are not available for this paper at this time.

Abstract

O núcleo das tarefas de compreensão de vídeo, como reconhecimento, legendagem e rastreamento, é detectar automaticamente objetos ou ações em um vídeo e analisar sua evolução temporal. Apesar de compartilharem um objetivo comum, diferentes tarefas frequentemente dependem de arquiteturas de modelo e formatos de anotação distintos. Em contraste, o processamento de linguagem natural se beneficia de um espaço de saída unificado, ou seja, sequências de texto, o que simplifica o treinamento de modelos fundacionais de linguagem poderosos, como o GPT-3, com extensos corpora de treinamento. Inspirados por isso, buscamos unificar o espaço de saída das tarefas de compreensão de vídeo usando linguagens como rótulos e introduzindo adicionalmente tokens de tempo e caixa. Dessa forma, uma variedade de tarefas de vídeo poderia ser formulada como geração de tokens fundamentada em vídeo. Isso nos permite abordar vários tipos de tarefas de vídeo, incluindo classificação (como reconhecimento de ação), legendagem (abrangendo legendagem de clipes, perguntas e respostas de vídeo e legendagem densa de vídeo) e tarefas de localização (como rastreamento visual de objetos) dentro de uma arquitetura codificador-decodificador totalmente compartilhada, seguindo uma estrutura generativa. Por meio de experimentos abrangentes, demonstramos que essa ideia simples e direta é bastante eficaz e pode alcançar resultados de ponta ou competitivos em sete benchmarks de vídeo, fornecendo uma perspectiva nova para uma compreensão de vídeo mais universal. O código está disponível em https://github.com/wangjk666/OmniVid.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Junke Wang

Dongdong Chen

Chong Luo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

OmniVid: Uma Estrutura Generativa para Compreensão Universal de Vídeo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider