March 24, 2024Open Access

LAMM: Label Alignment für Multi-Modale Prompt-Lernverfahren

Key Points

Key points are not available for this paper at this time.

Abstract

Mit dem Erfolg vortrainierter visuell-sprachlicher (VL) Modelle wie CLIP bei visuellen Darstellungsaufgaben ist die Übertragung vortrainierter Modelle auf nachgelagerte Aufgaben zu einem entscheidenden Paradigma geworden. Kürzlich hat das Prompt-Tuning-Paradigma, inspiriert von der Verarbeitung natürlicher Sprache (NLP), bedeutende Fortschritte im VL-Bereich erzielt. Frühere Methoden konzentrieren sich hauptsächlich darauf, Prompt-Vorlagen für Text- und visuelle Eingaben zu erstellen und vernachlässigen die Diskrepanz in der Repräsentation von Klassenlabels zwischen VL-Modellen und nachgelagerten Aufgaben. Um diese Herausforderung zu adressieren, führen wir eine innovative Label-Alignierungsmethode namens LAMM ein, die die Kategorie-Einbettungen von nachgelagerten Datensätzen durch End-to-End-Training dynamisch anpassen kann. Außerdem schlagen wir eine hierarchische Verlustfunktion vor, die die Ausrichtung des Parameterraums, Merkmalsraums und Logits-Raums umfasst, um eine angemessenere Label-Verteilung zu erzielen. Wir führen Experimente an 11 nachgelagerten Bilddatensätzen durch und zeigen, dass unsere Methode die Leistung bestehender multi-modaler Prompt-Lernmodelle in Few-Shot-Szenarien signifikant verbessert, mit einer durchschnittlichen Genauigkeitssteigerung von 2,31 % im Vergleich zu den besten Methoden bei 16 Shots. Zudem zeigt unsere Methode eine Überlegenheit im Bereich des kontinuierlichen Lernens gegenüber anderen Prompt-Tuning-Methoden. Wichtig ist, dass unsere Methode synergetisch mit bestehenden Prompt-Tuning-Methoden ist und deren Leistung weiter verbessert. Unser Code und Datensatz werden öffentlich verfügbar sein unter https://github.com/gaojingsheng/LAMM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jingsheng Gao

Jiacheng Ruan

Suncheng Xiang

Actions

Institutions

Shanghai Jiao Tong University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LAMM: Label Alignment für Multi-Modale Prompt-Lernverfahren

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider