March 31, 2024Open Access

Lipsum-FT: Robustes Feinabstimmen von Zero-Shot-Modellen mittels zufälliger Textanleitung

Key Points

Key points are not available for this paper at this time.

Abstract

Groß angelegte kontrastive vision-sprachlich vortrainierte Modelle bieten ein Zero-Shot-Modell, das eine wettbewerbsfähige Leistung bei einer Reihe von Bildklassifizierungsaufgaben erreicht, ohne dass eine Schulung mit nachgelagerten Daten erforderlich ist. Jüngste Arbeiten haben bestätigt, dass zwar eine zusätzliche Feinabstimmung des Zero-Shot-Modells auf den Referenzdaten die Leistung in nachgelagerten Aufgaben verbessert, dabei jedoch die Robustheit des Modells gegenüber Verteilungsverschiebungen beeinträchtigt wird. Unsere Untersuchung beginnt mit der Analyse der Bedingungen, die erfüllt sein müssen, um die Ziele eines robusten Feinabstimmens zu erreichen, wobei wir Beschreibungen auf der Grundlage der Theorie der Merkmalsverzerrung und gemeinsamer energie-basierter Modelle verwenden. Anschließend schlagen wir einen neuartigen robusten Feinabstimmungsalgorithmus, Lipsum-FT, vor, der den sprachmodellierenden Aspekt der vision-sprachlich vortrainierten Modelle effektiv nutzt. Umfangreiche Experimente bei Verteilungsverschiebungsszenarien in DomainNet und ImageNet bestätigen die Überlegenheit unseres vorgeschlagenen Lipsum-FT-Ansatzes gegenüber bestehenden Methoden des robusten Feinabstimmens.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Giung Nam

Byeongho Heo

Ju Ho Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Lipsum-FT: Robustes Feinabstimmen von Zero-Shot-Modellen mittels zufälliger Textanleitung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider