Key points are not available for this paper at this time.
Inspirados pelo surgimento dos Grandes Modelos de Linguagem (LLMs) que podem realmente entender a linguagem humana, avanços significativos foram feitos na adaptação de outras modalidades não linguísticas para serem 'compreensíveis' por um LLM, principalmente por meio da conversão de suas amostras em uma sequência de tokens embutidos semelhantes a linguagem, diretamente alimentados no fluxo de entrada do decodificador do LLM. No entanto, até agora, pouca atenção foi dada à transferência (e avaliação) de uma das capacidades principais dos LLMs para os emergentes VLMs, ou seja, a habilidade de Aprendizado em Contexto (ICL), ou em outras palavras, guiar os VLMs para tarefas alvo desejadas ou estrutura de saída utilizando demonstrações multimodais (imagem+texto) em contexto. Neste trabalho, investigamos mais profundamente as capacidades de alguns dos VLMs de última geração para seguirem instruções de ICL, descobrindo que elas são um tanto deficientes. Descobrimos que mesmo modelos que passaram por pré-treinamento em grande escala com modalidades mistas e foram implicitamente orientados a utilizar informações intercaladas de imagem e texto (destinadas a consumir contexto útil de múltiplas imagens) têm desempenho inferior quando promptados com demonstrações few-shot (ICL), provavelmente devido à ausência de afinação direta de instruções ICL. Para testar essa hipótese, propomos uma estratégia simples, porém surpreendentemente eficaz, de estender uma estrutura comum de alinhamento de VLM com suporte, metodologia e currículo para ICL. Exploramos, analisamos e fornecemos insights sobre misturas eficazes de dados, resultando em um aumento significativo de desempenho de 21,03% (e 11,3% em média) em ICL sobre as linhas de base VLM mais fortes e diversos benchmarks de ICL. Também contribuímos com novos benchmarks para avaliação de ICL em VLMs e discutimos suas vantagens em relação ao estado da arte anterior.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sivan Doveh
Shaked Perek
M. Jehanzeb Mirza
Building similarity graph...
Analyzing shared references across papers
Loading...
Doveh et al. (Ter,) estudaram esta questão.
www.synapsesocial.com/papers/68e7362fb6db6435876b02f6 — DOI: https://doi.org/10.48550/arxiv.2403.12736
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: