May 23, 2024Open Access

Eine verpasste Chance für Vision-Sprach-Modelle: Eine vergleichende Studie zur Online-Testzeit-Anpassung für Vision-Sprach-Modelle

Key Points

Key points are not available for this paper at this time.

Abstract

Im Bereich des Deep Learning ist die Aufrechterhaltung der Modellrobustheit gegenüber Verteilungsschwankungen von entscheidender Bedeutung. Diese Arbeit untersucht Strategien zur Testzeit-Anpassung für Vision-Sprach-Modelle, mit einem speziellen Fokus auf CLIP und seine Varianten. Durch eine systematische Erforschung von promptbasierten Techniken und bestehenden Testzeit-Anpassungsmethoden zielt die Studie darauf ab, die Anpassungsfähigkeit und Robustheit von Vision-Sprach-Modellen in diversen realen Szenarien zu verbessern. Die Untersuchung beinhaltet eine Analyse von Prompt-Engineering-Strategien wie handgefertigten Prompts, Prompt-Ensembles und Prompt-Lerntechniken. Wir stellen ein Vision-Text-Raum-Ensemble vor, das die durchschnittliche Leistung im Vergleich zu einem nur im Text-Raum operierenden Ensemble deutlich steigert. Zusätzlich beinhaltet unsere vergleichende Studie die Nutzung bestehender Testzeit-Anpassungsmethoden, die ursprünglich für Bildklassifikationsaufgaben entwickelt wurden. Experimentelle Bewertungen, die über verschiedene Datensätze und Modellarchitekturen durchgeführt wurden, zeigen die Wirksamkeit verschiedener Anpassungsstrategien. Weiterhin geben wir Einblicke in die Bedeutung der Aktualisierung des Vision-Encoders und ob es vorteilhaft ist, den Text-Encoder zu aktualisieren. Der Code ist verfügbar unter https://github.com/mariodoebler/test-time-adaptation

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mario Döbler

Robert A. Marsden

Tobias Raichle

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Eine verpasste Chance für Vision-Sprach-Modelle: Eine vergleichende Studie zur Online-Testzeit-Anpassung für Vision-Sprach-Modelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider