April 23, 2024Open Access

RS-LLaVA: Um Grande Modelo Visão-Linguagem para Legendas e Respostas a Perguntas Conjuntas em Imagens de Sensoriamento Remoto

Key Points

Key points are not available for this paper at this time.

Abstract

Neste artigo, exploramos a aplicação inovadora de grandes modelos de linguagem (LLMs) e sua extensão, grandes modelos visão-linguagem (LVLMs), no campo da análise de imagens de sensoriamento remoto (RS). Enfatizamos particularmente seu potencial multitarefa com foco em legendagem de imagens e resposta a perguntas visuais (VQA). Especificamente, introduzimos uma versão aprimorada do Modelo Assistente de Grande Linguagem e Visão (LLaVA), adaptada para imagens de RS por meio de uma abordagem de adaptação de baixa rank. Para avaliar o desempenho do modelo, criamos o conjunto de dados RS-instructions, um conjunto abrangente de referência que integra quatro conjuntos de dados simples e diversos relacionados a legendagem e VQA. Os resultados experimentais confirmam a eficácia do modelo, marcando um avanço para o desenvolvimento de modelos multitarefa eficientes para análise de imagens de RS.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yakoub Bazi

Laila Bashmal

Mohamad Mahmoud Al Rahhal

Journals

Remote Sensing

Actions

Institutions

University of Trento

King Saud University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

RS-LLaVA: Um Grande Modelo Visão-Linguagem para Legendas e Respostas a Perguntas Conjuntas em Imagens de Sensoriamento Remoto

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider