Key points are not available for this paper at this time.
Groß angelegte kontrastive vision-sprachlich vortrainierte Modelle bieten ein Zero-Shot-Modell, das eine wettbewerbsfähige Leistung bei einer Reihe von Bildklassifizierungsaufgaben erreicht, ohne dass eine Schulung mit nachgelagerten Daten erforderlich ist. Jüngste Arbeiten haben bestätigt, dass zwar eine zusätzliche Feinabstimmung des Zero-Shot-Modells auf den Referenzdaten die Leistung in nachgelagerten Aufgaben verbessert, dabei jedoch die Robustheit des Modells gegenüber Verteilungsverschiebungen beeinträchtigt wird. Unsere Untersuchung beginnt mit der Analyse der Bedingungen, die erfüllt sein müssen, um die Ziele eines robusten Feinabstimmens zu erreichen, wobei wir Beschreibungen auf der Grundlage der Theorie der Merkmalsverzerrung und gemeinsamer energie-basierter Modelle verwenden. Anschließend schlagen wir einen neuartigen robusten Feinabstimmungsalgorithmus, Lipsum-FT, vor, der den sprachmodellierenden Aspekt der vision-sprachlich vortrainierten Modelle effektiv nutzt. Umfangreiche Experimente bei Verteilungsverschiebungsszenarien in DomainNet und ImageNet bestätigen die Überlegenheit unseres vorgeschlagenen Lipsum-FT-Ansatzes gegenüber bestehenden Methoden des robusten Feinabstimmens.
Building similarity graph...
Analyzing shared references across papers
Loading...
Giung Nam
Byeongho Heo
Ju Ho Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
Nam et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e718ecb6db643587692396 — DOI: https://doi.org/10.48550/arxiv.2404.00860
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: