March 19, 2024Open Access

Rumo ao Aprendizado Multimodal em Contexto para Modelos de Visão e Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Inspirados pelo surgimento dos Grandes Modelos de Linguagem (LLMs) que podem realmente entender a linguagem humana, avanços significativos foram feitos na adaptação de outras modalidades não linguísticas para serem 'compreensíveis' por um LLM, principalmente por meio da conversão de suas amostras em uma sequência de tokens embutidos semelhantes a linguagem, diretamente alimentados no fluxo de entrada do decodificador do LLM. No entanto, até agora, pouca atenção foi dada à transferência (e avaliação) de uma das capacidades principais dos LLMs para os emergentes VLMs, ou seja, a habilidade de Aprendizado em Contexto (ICL), ou em outras palavras, guiar os VLMs para tarefas alvo desejadas ou estrutura de saída utilizando demonstrações multimodais (imagem+texto) em contexto. Neste trabalho, investigamos mais profundamente as capacidades de alguns dos VLMs de última geração para seguirem instruções de ICL, descobrindo que elas são um tanto deficientes. Descobrimos que mesmo modelos que passaram por pré-treinamento em grande escala com modalidades mistas e foram implicitamente orientados a utilizar informações intercaladas de imagem e texto (destinadas a consumir contexto útil de múltiplas imagens) têm desempenho inferior quando promptados com demonstrações few-shot (ICL), provavelmente devido à ausência de afinação direta de instruções ICL. Para testar essa hipótese, propomos uma estratégia simples, porém surpreendentemente eficaz, de estender uma estrutura comum de alinhamento de VLM com suporte, metodologia e currículo para ICL. Exploramos, analisamos e fornecemos insights sobre misturas eficazes de dados, resultando em um aumento significativo de desempenho de 21,03% (e 11,3% em média) em ICL sobre as linhas de base VLM mais fortes e diversos benchmarks de ICL. Também contribuímos com novos benchmarks para avaliação de ICL em VLMs e discutimos suas vantagens em relação ao estado da arte anterior.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sivan Doveh

Shaked Perek

M. Jehanzeb Mirza

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Rumo ao Aprendizado Multimodal em Contexto para Modelos de Visão e Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider