A evolução das metodologias de aprendizado de prompt impulsionou a exploração de projetos de prompts mais profundos para melhorar o desempenho do modelo. Contudo, as abordagens atuais de prompting textual profundo apresentam duas limitações críticas: Dependência excessiva de objetivos de aprendizado contrastivo que priorizam alinhamento semântico de alto nível, negligenciando a otimização de características granulares; Prompts estáticos para todas as categorias de entrada, impedindo a adaptação sensível ao conteúdo. Para abordar essas limitações, propomos AttriPrompt — uma nova estrutura que aprimora e refina representações semânticas textuais aproveitando as características das camadas intermediárias do codificador visual do CLIP. Projetamos um módulo de Recuperação de Atributos que primeiro agrupa características visuais de cada camada. As características visuais agregadas recuperam prompts semanticamente similares de um pool de prompts, que são então concatenados à entrada de cada camada no codificador textual. Aproveitando a informação visual hierárquica embutida nas características textuais indicadas, introduzimos o Aprendizado Contrastivo de Fluxo Duplo para realizar alinhamento granular. Além disso, introduzimos um mecanismo de Auto-Regularização aplicando restrições explícitas de regularização entre as características textuais indicadas e não indicadas para evitar sobreajuste em dados limitados de treinamento. Experimentações extensas em três benchmarks demonstram a superioridade do AttriPrompt sobre métodos de última geração, alcançando até 7,37% de melhoria no cenário base-para-novo. A força observada de nosso método na transferência de conhecimento entre domínios posiciona modelos pré-treinados visão-linguagem como soluções mais viáveis para implementação no mundo real.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qingyuan Zhan
S.-M. Li
Quanlin Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhan et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68ebffcfdef9fcb308ff2596 — DOI: https://doi.org/10.48550/arxiv.2509.05949