March 24, 2024Open Access

BLIVA: Um LLM Multimodal Simples para Melhor Manipulação de Perguntas Visuais Ricas em Texto

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de Linguagem Visual (VLMs), que estendem os Modelos de Linguagem de Grande Porte (LLM) incorporando capacidade de compreensão visual, demonstraram avanços significativos na resolução de tarefas abertas de perguntas e respostas visuais (VQA). No entanto, esses modelos não conseguem interpretar com precisão imagens contendo texto, ocorrência comum em cenários do mundo real. Procedimentos padrão para extração de informações de imagens geralmente envolvem o aprendizado de um conjunto fixo de embeddings de consulta. Esses embeddings são projetados para encapsular contextos da imagem e são posteriormente usados como prompts suaves em LLMs. Contudo, esse processo é limitado pela contagem de tokens, potencialmente restringindo o reconhecimento de cenas com contexto rico em texto. Para melhorar esses aspectos, o presente estudo introduz BLIVA: uma versão aumentada do InstructBLIP com Assistente Visual. BLIVA incorpora os embeddings de consulta do InstructBLIP e também projeta diretamente os embeddings dos patches codificados no LLM, uma técnica inspirada pelo LLaVA. Esta abordagem ajuda o modelo a capturar detalhes intrincados que podem ser perdidos durante o processo de decodificação da consulta. Evidências empíricas demonstram que nosso modelo, BLIVA, melhora significativamente o desempenho no processamento de benchmarks VQA ricos em texto (até 17,76% no benchmark OCR-VQA) e na execução de benchmarks VQA gerais (não particularmente ricos em texto) (até 7,9% no benchmark Visual Spatial Reasoning), alcançando uma melhoria global de 17,72% em um benchmark multimodal abrangente (MME), em comparação com nosso baseline InstructBLIP. BLIVA demonstra capacidade significativa na decodificação de imagens do mundo real, independentemente da presença de texto. Para demonstrar as amplas aplicações industriais viabilizadas pelo BLIVA, avaliamos o modelo usando um novo conjunto de dados composto por miniaturas do YouTube pareadas com conjuntos de perguntas e respostas em 11 categorias diversas. Para pesquisadores interessados em exploração adicional, nosso código e modelos estão acessíveis gratuitamente em https://github.com/mlpc-ucsd/BLIVA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenbo Hu

Yifan Xu

Yi Li

Actions

Institutions

University of California, San Diego

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

BLIVA: Um LLM Multimodal Simples para Melhor Manipulação de Perguntas Visuais Ricas em Texto

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider