July 6, 2024Open Access

Die Lösung für die sprachverbesserte Neuentdeckung von Bildkategorien

Key Points

Key points are not available for this paper at this time.

Abstract

Indem Texte wie Bilder behandelt, Aufforderungen mit textlichen Labels zur Aufforderungsanpassung kombiniert und die Ausrichtungseigenschaften von CLIP genutzt werden, konnte eine Null-Schuss-Multilabel-Bilderkennung erfolgreich umgesetzt werden. Dennoch reicht es nicht aus, sich ausschließlich auf textliche Labels zur Speicherung visueller Informationen zu stützen, um die Vielfalt visueller Objekte darzustellen. In diesem Papier schlagen wir vor, den Trainingsprozess von CLIP umzukehren und das Konzept der Pseudo-Visuellen Aufforderungen einzuführen. Diese Aufforderungen werden für jede Objektkategorie initialisiert und auf groß angelegten, kostengünstigen Satzdaten vortrainiert, die von großen Sprachmodellen generiert werden. Dieser Prozess extrahiert die ausgerichteten visuellen Informationen in CLIP und speichert sie in klassen-spezifischen visuellen Aufforderungen. Anschließend verwenden wir kontrastives Lernen, um die gespeicherten visuellen Informationen auf die textlichen Labels zu übertragen und deren visuelle Repräsentationsfähigkeit zu verbessern. Zusätzlich führen wir ein Dual-Adapter-Modul ein, das gleichzeitig Wissen aus dem ursprünglichen CLIP und neues Lernwissen aus nachgelagerten Datensätzen nutzt. Dank der pseudo-visuellen Aufforderungen übertrifft unsere Methode den Stand der Technik nicht nur bei sauber annotierten Textdaten, sondern auch bei Pseudo-Textdaten, die von großen Sprachmodellen erzeugt werden.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haonan Xu

Dian Chao

Xiangyu Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Die Lösung für die sprachverbesserte Neuentdeckung von Bildkategorien

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study