Key points are not available for this paper at this time.
Neste artigo, exploramos a aplicação inovadora de grandes modelos de linguagem (LLMs) e sua extensão, grandes modelos visão-linguagem (LVLMs), no campo da análise de imagens de sensoriamento remoto (RS). Enfatizamos particularmente seu potencial multitarefa com foco em legendagem de imagens e resposta a perguntas visuais (VQA). Especificamente, introduzimos uma versão aprimorada do Modelo Assistente de Grande Linguagem e Visão (LLaVA), adaptada para imagens de RS por meio de uma abordagem de adaptação de baixa rank. Para avaliar o desempenho do modelo, criamos o conjunto de dados RS-instructions, um conjunto abrangente de referência que integra quatro conjuntos de dados simples e diversos relacionados a legendagem e VQA. Os resultados experimentais confirmam a eficácia do modelo, marcando um avanço para o desenvolvimento de modelos multitarefa eficientes para análise de imagens de RS.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yakoub Bazi
Laila Bashmal
Mohamad Mahmoud Al Rahhal
Remote Sensing
University of Trento
King Saud University
Building similarity graph...
Analyzing shared references across papers
Loading...
Bazi et al. (Ter,) estudaram esta questão.
www.synapsesocial.com/papers/68e6de6eb6db64358765a56e — DOI: https://doi.org/10.3390/rs16091477
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: