Key points are not available for this paper at this time.
Indem Texte wie Bilder behandelt, Aufforderungen mit textlichen Labels zur Aufforderungsanpassung kombiniert und die Ausrichtungseigenschaften von CLIP genutzt werden, konnte eine Null-Schuss-Multilabel-Bilderkennung erfolgreich umgesetzt werden. Dennoch reicht es nicht aus, sich ausschließlich auf textliche Labels zur Speicherung visueller Informationen zu stützen, um die Vielfalt visueller Objekte darzustellen. In diesem Papier schlagen wir vor, den Trainingsprozess von CLIP umzukehren und das Konzept der Pseudo-Visuellen Aufforderungen einzuführen. Diese Aufforderungen werden für jede Objektkategorie initialisiert und auf groß angelegten, kostengünstigen Satzdaten vortrainiert, die von großen Sprachmodellen generiert werden. Dieser Prozess extrahiert die ausgerichteten visuellen Informationen in CLIP und speichert sie in klassen-spezifischen visuellen Aufforderungen. Anschließend verwenden wir kontrastives Lernen, um die gespeicherten visuellen Informationen auf die textlichen Labels zu übertragen und deren visuelle Repräsentationsfähigkeit zu verbessern. Zusätzlich führen wir ein Dual-Adapter-Modul ein, das gleichzeitig Wissen aus dem ursprünglichen CLIP und neues Lernwissen aus nachgelagerten Datensätzen nutzt. Dank der pseudo-visuellen Aufforderungen übertrifft unsere Methode den Stand der Technik nicht nur bei sauber annotierten Textdaten, sondern auch bei Pseudo-Textdaten, die von großen Sprachmodellen erzeugt werden.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haonan Xu
Dian Chao
Xiangyu Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Xu et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e613b1b6db6435875a609b — DOI: https://doi.org/10.48550/arxiv.2407.04994