What type of study is this?

This is a Quantitative Study study.

October 19, 2025Open Access

GLAD: Ajuste Generalizável para Modelos de Visão e Linguagem

Key Points

A estrutura GLAD mostra melhoria na generalização em modelos de visão e linguagem com menos pontos de dados de treinamento.
Utilizando 15 conjuntos de dados de referência, o GLAD superou significativamente os métodos de ajuste existentes em várias tarefas de generalização.
A regularização baseada em gradiente ajuda o GLAD a mitigar o overfitting em cenários de aprendizado few-shot.
A aplicação de LoRA dentro do GLAD alcança resultados comparáveis aos métodos de ajuste de prompt de última geração.

Abstract

Modelos pré-treinados de visão e linguagem, como o CLIP, mostram uma impressionante capacidade de reconhecimento zero-shot e podem ser facilmente transferidos para tarefas específicas subsequentes via ajuste de prompt, mesmo com dados de treinamento limitados. No entanto, os métodos existentes de ajuste de prompt enfrentam dois desafios principais: (1) Em cenários few-shot, a escassez de dados frequentemente leva ao overfitting, tornando o modelo sensível a mudanças no domínio da entrada. (2) Para mitigar o overfitting, esses métodos normalmente dependem de arquiteturas de modelo específicas para a tarefa complexas e ajuste sensível de hiperparâmetros, restringindo severamente sua aplicabilidade geral. Para abordar essas questões, propomos uma estrutura mais simples e geral chamada GLAD (Generalizable LoRA tuning with RegulArized GraDient). Demonstramos que simplesmente aplicar LoRA alcança desempenho nas tarefas subsequentes comparável aos métodos baseados em prompt de última geração. Embora LoRA seja eficaz e fácil de usar, continua suscetível ao overfitting em cenários de aprendizado few-shot. Para mitigar esse risco, introduzimos uma técnica de regularização baseada em gradiente. Essa técnica direciona efetivamente a trajetória de otimização, incentivando o modelo a encontrar uma região de parâmetros mais estável que seja robusta a variações na distribuição dos dados. Por meio de experimentos extensivos conduzidos em 15 conjuntos de dados de referência, demonstramos que o GLAD supera abordagens anteriores de ajuste em termos de generalização de classes base para novas, generalização de domínio de imagem e generalização entre conjuntos de dados. O código estará disponível publicamente.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuqi Peng

Pengfei Wang

Jianzhuang Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

GLAD: Ajuste Generalizável para Modelos de Visão e Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider