July 22, 2024Open Access

LongVideoBench: Um Benchmark para Compreensão Intercalada de Vídeo-Linguagem de Longo Contexto

Key Points

Key points are not available for this paper at this time.

Abstract

Grandes modelos multimodais (LMMs) estão processando entradas cada vez mais longas e enriquecidas. Apesar do progresso, poucos benchmarks públicos estão disponíveis para medir esse desenvolvimento. Para mitigar essa lacuna, apresentamos o LongVideoBench, um benchmark de perguntas e respostas que apresenta entradas intercaladas de vídeo e linguagem com até uma hora de duração. Nosso benchmark inclui 3.763 vídeos coletados da web com duração variável e suas legendas em diversos temas, projetado para avaliar de forma abrangente os LMMs na compreensão multimodal de longo prazo. Para isso, interpretamos o desafio principal como a capacidade de recuperar com precisão e raciocinar sobre informações multimodais detalhadas de entradas longas. Assim, formulamos uma nova tarefa de perguntas e respostas em vídeo denominada raciocínio referencial. Especificamente, como parte da pergunta, contém uma consulta referencial que faz referência a contextos de vídeo relacionados, chamados contextos referidos. O modelo deve então raciocinar sobre detalhes relevantes do vídeo a partir do contexto referido. Seguindo o paradigma do raciocínio referencial, selecionamos 6.678 perguntas de múltipla escolha anotadas por humanos em 17 categorias detalhadas, estabelecendo um dos benchmarks mais abrangentes para compreensão de vídeo de formato longo. As avaliações sugerem que o LongVideoBench apresenta desafios significativos mesmo para os modelos proprietários mais avançados (por exemplo, GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), enquanto seus equivalentes open-source mostram uma diferença de desempenho ainda maior. Além disso, nossos resultados indicam que o desempenho do modelo no benchmark melhora apenas quando eles podem processar mais quadros, posicionando o LongVideoBench como um benchmark valioso para avaliar LMMs de longa contexto de próxima geração.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoning Wu

Dongxu Li

Bei Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LongVideoBench: Um Benchmark para Compreensão Intercalada de Vídeo-Linguagem de Longo Contexto

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider