Key points are not available for this paper at this time.
A integração de Large Language Models (LLMs) em tarefas do domínio visual, resultando em visual-LLMs (V-LLMs), possibilitou desempenho excepcional em tarefas de visão e linguagem, especialmente para visual question answering (VQA). No entanto, os V-LLMs existentes (ex.: BLIP-2, LLaVA) demonstram fraco raciocínio espacial e consciência de localização. Apesar de gerarem respostas textuais altamente descritivas e elaboradas, esses modelos falham em tarefas simples como distinguir uma localização esquerda de direita. Neste trabalho, exploramos como objetivos de fine-tuning instruído baseados em coordenadas no espaço da imagem podem injetar consciência espacial nos V-LLMs. Descobrimos representações ótimas de coordenadas, objetivos de fine-tuning instruído com eficiência de dados e estratégias de geração de pseudo-dados que levam a uma melhor consciência espacial nos V-LLMs. Além disso, nosso modelo resultante melhora o VQA em domínios de imagens e vídeos, reduz alucinações indesejadas e gera melhores descrições contextuais de objetos. Experimentos em 5 tarefas visão-linguagem envolvendo 14 conjuntos de dados diferentes estabelecem as claras melhorias de desempenho alcançadas pelo nosso framework proposto.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kanchana Ranasinghe
Satya Narayan Shukla
Omid Poursaeed
Building similarity graph...
Analyzing shared references across papers
Loading...
Ranasinghe et al. (Wed,) estudaram esta questão.
www.synapsesocial.com/papers/68e6fb90b6db643587675f5f — DOI: https://doi.org/10.48550/arxiv.2404.07449
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: