April 10, 2024Open Access

Aprender a localizar objetos melhora o raciocínio espacial em Visual-LLMs

Key Points

Key points are not available for this paper at this time.

Abstract

A integração de Large Language Models (LLMs) em tarefas do domínio visual, resultando em visual-LLMs (V-LLMs), possibilitou desempenho excepcional em tarefas de visão e linguagem, especialmente para visual question answering (VQA). No entanto, os V-LLMs existentes (ex.: BLIP-2, LLaVA) demonstram fraco raciocínio espacial e consciência de localização. Apesar de gerarem respostas textuais altamente descritivas e elaboradas, esses modelos falham em tarefas simples como distinguir uma localização esquerda de direita. Neste trabalho, exploramos como objetivos de fine-tuning instruído baseados em coordenadas no espaço da imagem podem injetar consciência espacial nos V-LLMs. Descobrimos representações ótimas de coordenadas, objetivos de fine-tuning instruído com eficiência de dados e estratégias de geração de pseudo-dados que levam a uma melhor consciência espacial nos V-LLMs. Além disso, nosso modelo resultante melhora o VQA em domínios de imagens e vídeos, reduz alucinações indesejadas e gera melhores descrições contextuais de objetos. Experimentos em 5 tarefas visão-linguagem envolvendo 14 conjuntos de dados diferentes estabelecem as claras melhorias de desempenho alcançadas pelo nosso framework proposto.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kanchana Ranasinghe

Satya Narayan Shukla

Omid Poursaeed

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprender a localizar objetos melhora o raciocínio espacial em Visual-LLMs

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider