What type of study is this?

This is a Quantitative Study study.

September 22, 2025Open Access

Document Haystack: Um Benchmark de LLM para Compreensão Multimodal de Imagens/Documentos com Contexto Longo

Key Points

Document Haystack melhora a avaliação de modelos de linguagem visual em documentos extensos, visando avançar a compreensão multimodal.
O benchmark inclui 400 variantes de documentos e 8.250 perguntas, testando diversos desafios de recuperação para VLMs.
Utilizando uma estrutura de avaliação automatizada, visa padronizar as avaliações do desempenho dos VLMs em formatos documentais complexos.
A pesquisa destaca uma necessidade emergente de melhores ferramentas para processar entradas longas e multimodais, abrindo caminho para avanços futuros.

Abstract

A proliferação de Modelos de Linguagem Grandes multimodais avançou significativamente a capacidade de analisar e compreender entradas de dados complexas de diferentes modalidades. No entanto, o processamento de documentos longos ainda é pouco explorado, em grande parte devido à falta de benchmarks adequados. Para resolver isso, introduzimos o Document Haystack, um benchmark abrangente projetado para avaliar o desempenho dos Modelos de Linguagem Visual (VLMs) em documentos longos e visualmente complexos. O Document Haystack apresenta documentos que variam de 5 a 200 páginas e insere estrategicamente "agulhas" de texto puro ou multimodal texto+imagem em várias profundidades dentro dos documentos para desafiar as capacidades de recuperação dos VLMs. Composto por 400 variantes de documentos e um total de 8.250 perguntas, é suportado por uma estrutura de avaliação objetiva e automatizada. Detalhamos a construção e características do conjunto de dados Document Haystack, apresentamos resultados de VLMs proeminentes e discutimos potenciais caminhos de pesquisa nesta área.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Goeric Huybrechts

Srikanth Ronanki

Sai Muralidhar Jayanthi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Document Haystack: Um Benchmark de LLM para Compreensão Multimodal de Imagens/Documentos com Contexto Longo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study