Key points are not available for this paper at this time.
Im Bereich des Deep Learning ist die Aufrechterhaltung der Modellrobustheit gegenüber Verteilungsschwankungen von entscheidender Bedeutung. Diese Arbeit untersucht Strategien zur Testzeit-Anpassung für Vision-Sprach-Modelle, mit einem speziellen Fokus auf CLIP und seine Varianten. Durch eine systematische Erforschung von promptbasierten Techniken und bestehenden Testzeit-Anpassungsmethoden zielt die Studie darauf ab, die Anpassungsfähigkeit und Robustheit von Vision-Sprach-Modellen in diversen realen Szenarien zu verbessern. Die Untersuchung beinhaltet eine Analyse von Prompt-Engineering-Strategien wie handgefertigten Prompts, Prompt-Ensembles und Prompt-Lerntechniken. Wir stellen ein Vision-Text-Raum-Ensemble vor, das die durchschnittliche Leistung im Vergleich zu einem nur im Text-Raum operierenden Ensemble deutlich steigert. Zusätzlich beinhaltet unsere vergleichende Studie die Nutzung bestehender Testzeit-Anpassungsmethoden, die ursprünglich für Bildklassifikationsaufgaben entwickelt wurden. Experimentelle Bewertungen, die über verschiedene Datensätze und Modellarchitekturen durchgeführt wurden, zeigen die Wirksamkeit verschiedener Anpassungsstrategien. Weiterhin geben wir Einblicke in die Bedeutung der Aktualisierung des Vision-Encoders und ob es vorteilhaft ist, den Text-Encoder zu aktualisieren. Der Code ist verfügbar unter https://github.com/mariodoebler/test-time-adaptation
Building similarity graph...
Analyzing shared references across papers
Loading...
Mario Döbler
Robert A. Marsden
Tobias Raichle
Building similarity graph...
Analyzing shared references across papers
Loading...
Döbler et al. (Thu,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e68d03b6db643587614ea4 — DOI: https://doi.org/10.48550/arxiv.2405.14977
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: