Key points are not available for this paper at this time.
O núcleo das tarefas de compreensão de vídeo, como reconhecimento, legendagem e rastreamento, é detectar automaticamente objetos ou ações em um vídeo e analisar sua evolução temporal. Apesar de compartilharem um objetivo comum, diferentes tarefas frequentemente dependem de arquiteturas de modelo e formatos de anotação distintos. Em contraste, o processamento de linguagem natural se beneficia de um espaço de saída unificado, ou seja, sequências de texto, o que simplifica o treinamento de modelos fundacionais de linguagem poderosos, como o GPT-3, com extensos corpora de treinamento. Inspirados por isso, buscamos unificar o espaço de saída das tarefas de compreensão de vídeo usando linguagens como rótulos e introduzindo adicionalmente tokens de tempo e caixa. Dessa forma, uma variedade de tarefas de vídeo poderia ser formulada como geração de tokens fundamentada em vídeo. Isso nos permite abordar vários tipos de tarefas de vídeo, incluindo classificação (como reconhecimento de ação), legendagem (abrangendo legendagem de clipes, perguntas e respostas de vídeo e legendagem densa de vídeo) e tarefas de localização (como rastreamento visual de objetos) dentro de uma arquitetura codificador-decodificador totalmente compartilhada, seguindo uma estrutura generativa. Por meio de experimentos abrangentes, demonstramos que essa ideia simples e direta é bastante eficaz e pode alcançar resultados de ponta ou competitivos em sete benchmarks de vídeo, fornecendo uma perspectiva nova para uma compreensão de vídeo mais universal. O código está disponível em https://github.com/wangjk666/OmniVid.
Building similarity graph...
Analyzing shared references across papers
Loading...
Junke Wang
Dongdong Chen
Chong Luo
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Ter,) estudaram esta questão.
www.synapsesocial.com/papers/68e7263ab6db64358769fc88 — DOI: https://doi.org/10.48550/arxiv.2403.17935
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: