A proliferação de Modelos de Linguagem Grandes multimodais avançou significativamente a capacidade de analisar e compreender entradas de dados complexas de diferentes modalidades. No entanto, o processamento de documentos longos ainda é pouco explorado, em grande parte devido à falta de benchmarks adequados. Para resolver isso, introduzimos o Document Haystack, um benchmark abrangente projetado para avaliar o desempenho dos Modelos de Linguagem Visual (VLMs) em documentos longos e visualmente complexos. O Document Haystack apresenta documentos que variam de 5 a 200 páginas e insere estrategicamente "agulhas" de texto puro ou multimodal texto+imagem em várias profundidades dentro dos documentos para desafiar as capacidades de recuperação dos VLMs. Composto por 400 variantes de documentos e um total de 8.250 perguntas, é suportado por uma estrutura de avaliação objetiva e automatizada. Detalhamos a construção e características do conjunto de dados Document Haystack, apresentamos resultados de VLMs proeminentes e discutimos potenciais caminhos de pesquisa nesta área.
Building similarity graph...
Analyzing shared references across papers
Loading...
Goeric Huybrechts
Srikanth Ronanki
Sai Muralidhar Jayanthi
Building similarity graph...
Analyzing shared references across papers
Loading...
Huybrechts et al. (Sex,) estudaram esta questão.
www.synapsesocial.com/papers/68d46fdc31b076d99fa6a65c — DOI: https://doi.org/10.48550/arxiv.2507.15882