What type of study is this?

This is a Experimental Study study.

October 12, 2025Open Access

AttriPrompt: Aprendizado Dinâmico de Composição de Prompt para CLIP

Key Points

AttriPrompt demonstra uma melhoria de 7,37% no desempenho do modelo em comparação com métodos existentes.
A estrutura aborda limitações no prompting textual profundo atual otimizando características granulares.
Um módulo de Recuperação de Atributos agrupa e utiliza características visuais, aprimorando a adaptação do prompt entre categorias.
Mecanismos de Auto-Regularização previnem sobreajuste em conjuntos de dados limitados, estimulando a generalização em tarefas do mundo real.

Abstract

A evolução das metodologias de aprendizado de prompt impulsionou a exploração de projetos de prompts mais profundos para melhorar o desempenho do modelo. Contudo, as abordagens atuais de prompting textual profundo apresentam duas limitações críticas: Dependência excessiva de objetivos de aprendizado contrastivo que priorizam alinhamento semântico de alto nível, negligenciando a otimização de características granulares; Prompts estáticos para todas as categorias de entrada, impedindo a adaptação sensível ao conteúdo. Para abordar essas limitações, propomos AttriPrompt — uma nova estrutura que aprimora e refina representações semânticas textuais aproveitando as características das camadas intermediárias do codificador visual do CLIP. Projetamos um módulo de Recuperação de Atributos que primeiro agrupa características visuais de cada camada. As características visuais agregadas recuperam prompts semanticamente similares de um pool de prompts, que são então concatenados à entrada de cada camada no codificador textual. Aproveitando a informação visual hierárquica embutida nas características textuais indicadas, introduzimos o Aprendizado Contrastivo de Fluxo Duplo para realizar alinhamento granular. Além disso, introduzimos um mecanismo de Auto-Regularização aplicando restrições explícitas de regularização entre as características textuais indicadas e não indicadas para evitar sobreajuste em dados limitados de treinamento. Experimentações extensas em três benchmarks demonstram a superioridade do AttriPrompt sobre métodos de última geração, alcançando até 7,37% de melhoria no cenário base-para-novo. A força observada de nosso método na transferência de conhecimento entre domínios posiciona modelos pré-treinados visão-linguagem como soluções mais viáveis para implementação no mundo real.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qingyuan Zhan

S.-M. Li

Quanlin Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AttriPrompt: Aprendizado Dinâmico de Composição de Prompt para CLIP

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study