March 27, 2024Open Access

ViTAR: Vision Transformer mit beliebiger Auflösung

Key Points

Key points are not available for this paper at this time.

Abstract

Dieser Artikel adressiert eine wesentliche Herausforderung von Vision Transformers (ViTs): ihre eingeschränkte Skalierbarkeit über verschiedene Bildauflösungen hinweg. ViTs zeigen typischerweise einen Leistungsabfall, wenn sie mit Auflösungen arbeiten, die von denen im Training abweichen. Unsere Arbeit führt zwei zentrale Innovationen zur Lösung dieses Problems ein. Erstens schlagen wir ein neuartiges Modul zur dynamischen Auflösungsanpassung vor, entworfen mit einem einzelnen Transformer-Block, speziell für eine hocheffiziente inkrementelle Token-Integration. Zweitens führen wir unscharfe Positionskodierung im Vision Transformer ein, um eine konsistente Positionswahrnehmung über mehrere Auflösungen hinweg zu gewährleisten und so eine Überanpassung an eine einzelne Trainingsauflösung zu verhindern. Unser resultierendes Modell, ViTAR (Vision Transformer mit beliebiger Auflösung), zeigt beeindruckende Anpassungsfähigkeit, erreicht 83,3\% Top-1-Genauigkeit bei einer Auflösung von 1120x1120 und 80,4\% bei 4032x4032, während die Rechenkosten reduziert werden. ViTAR zeigt zudem starke Leistungen bei nachgelagerten Aufgaben wie der Instanz- und der semantischen Segmentierung und lässt sich problemlos mit selbstüberwachten Lernmethoden wie Masked AutoEncoder kombinieren. Unsere Arbeit bietet eine kosteneffiziente Lösung zur Verbesserung der Auflösungsskalierbarkeit von ViTs und ebnet den Weg für vielseitigere und effizientere Hochauflösungsverarbeitung von Bildern.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qihang Fan

Quanzeng You

Xiaotian Han

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ViTAR: Vision Transformer mit beliebiger Auflösung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider