Key points are not available for this paper at this time.
Modelos de Linguagem Visual (VLMs), que estendem os Modelos de Linguagem de Grande Porte (LLM) incorporando capacidade de compreensão visual, demonstraram avanços significativos na resolução de tarefas abertas de perguntas e respostas visuais (VQA). No entanto, esses modelos não conseguem interpretar com precisão imagens contendo texto, ocorrência comum em cenários do mundo real. Procedimentos padrão para extração de informações de imagens geralmente envolvem o aprendizado de um conjunto fixo de embeddings de consulta. Esses embeddings são projetados para encapsular contextos da imagem e são posteriormente usados como prompts suaves em LLMs. Contudo, esse processo é limitado pela contagem de tokens, potencialmente restringindo o reconhecimento de cenas com contexto rico em texto. Para melhorar esses aspectos, o presente estudo introduz BLIVA: uma versão aumentada do InstructBLIP com Assistente Visual. BLIVA incorpora os embeddings de consulta do InstructBLIP e também projeta diretamente os embeddings dos patches codificados no LLM, uma técnica inspirada pelo LLaVA. Esta abordagem ajuda o modelo a capturar detalhes intrincados que podem ser perdidos durante o processo de decodificação da consulta. Evidências empíricas demonstram que nosso modelo, BLIVA, melhora significativamente o desempenho no processamento de benchmarks VQA ricos em texto (até 17,76% no benchmark OCR-VQA) e na execução de benchmarks VQA gerais (não particularmente ricos em texto) (até 7,9% no benchmark Visual Spatial Reasoning), alcançando uma melhoria global de 17,72% em um benchmark multimodal abrangente (MME), em comparação com nosso baseline InstructBLIP. BLIVA demonstra capacidade significativa na decodificação de imagens do mundo real, independentemente da presença de texto. Para demonstrar as amplas aplicações industriais viabilizadas pelo BLIVA, avaliamos o modelo usando um novo conjunto de dados composto por miniaturas do YouTube pareadas com conjuntos de perguntas e respostas em 11 categorias diversas. Para pesquisadores interessados em exploração adicional, nosso código e modelos estão acessíveis gratuitamente em https://github.com/mlpc-ucsd/BLIVA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenbo Hu
Yifan Xu
Yi Li
University of California, San Diego
Building similarity graph...
Analyzing shared references across papers
Loading...
Hu et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68e72954b6db6435876a2cf5 — DOI: https://doi.org/10.1609/aaai.v38i3.27999
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: