Key points are not available for this paper at this time.
Grandes modelos multimodais (LMMs) estão processando entradas cada vez mais longas e enriquecidas. Apesar do progresso, poucos benchmarks públicos estão disponíveis para medir esse desenvolvimento. Para mitigar essa lacuna, apresentamos o LongVideoBench, um benchmark de perguntas e respostas que apresenta entradas intercaladas de vídeo e linguagem com até uma hora de duração. Nosso benchmark inclui 3.763 vídeos coletados da web com duração variável e suas legendas em diversos temas, projetado para avaliar de forma abrangente os LMMs na compreensão multimodal de longo prazo. Para isso, interpretamos o desafio principal como a capacidade de recuperar com precisão e raciocinar sobre informações multimodais detalhadas de entradas longas. Assim, formulamos uma nova tarefa de perguntas e respostas em vídeo denominada raciocínio referencial. Especificamente, como parte da pergunta, contém uma consulta referencial que faz referência a contextos de vídeo relacionados, chamados contextos referidos. O modelo deve então raciocinar sobre detalhes relevantes do vídeo a partir do contexto referido. Seguindo o paradigma do raciocínio referencial, selecionamos 6.678 perguntas de múltipla escolha anotadas por humanos em 17 categorias detalhadas, estabelecendo um dos benchmarks mais abrangentes para compreensão de vídeo de formato longo. As avaliações sugerem que o LongVideoBench apresenta desafios significativos mesmo para os modelos proprietários mais avançados (por exemplo, GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), enquanto seus equivalentes open-source mostram uma diferença de desempenho ainda maior. Além disso, nossos resultados indicam que o desempenho do modelo no benchmark melhora apenas quando eles podem processar mais quadros, posicionando o LongVideoBench como um benchmark valioso para avaliar LMMs de longa contexto de próxima geração.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haoning Wu
Dongxu Li
Bei Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e5f93bb6db64358758d71f — DOI: https://doi.org/10.48550/arxiv.2407.15754
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: