Key points are not available for this paper at this time.
Dieser Artikel adressiert eine wesentliche Herausforderung von Vision Transformers (ViTs): ihre eingeschränkte Skalierbarkeit über verschiedene Bildauflösungen hinweg. ViTs zeigen typischerweise einen Leistungsabfall, wenn sie mit Auflösungen arbeiten, die von denen im Training abweichen. Unsere Arbeit führt zwei zentrale Innovationen zur Lösung dieses Problems ein. Erstens schlagen wir ein neuartiges Modul zur dynamischen Auflösungsanpassung vor, entworfen mit einem einzelnen Transformer-Block, speziell für eine hocheffiziente inkrementelle Token-Integration. Zweitens führen wir unscharfe Positionskodierung im Vision Transformer ein, um eine konsistente Positionswahrnehmung über mehrere Auflösungen hinweg zu gewährleisten und so eine Überanpassung an eine einzelne Trainingsauflösung zu verhindern. Unser resultierendes Modell, ViTAR (Vision Transformer mit beliebiger Auflösung), zeigt beeindruckende Anpassungsfähigkeit, erreicht 83,3\% Top-1-Genauigkeit bei einer Auflösung von 1120x1120 und 80,4\% bei 4032x4032, während die Rechenkosten reduziert werden. ViTAR zeigt zudem starke Leistungen bei nachgelagerten Aufgaben wie der Instanz- und der semantischen Segmentierung und lässt sich problemlos mit selbstüberwachten Lernmethoden wie Masked AutoEncoder kombinieren. Unsere Arbeit bietet eine kosteneffiziente Lösung zur Verbesserung der Auflösungsskalierbarkeit von ViTs und ebnet den Weg für vielseitigere und effizientere Hochauflösungsverarbeitung von Bildern.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qihang Fan
Quanzeng You
Xiaotian Han
Building similarity graph...
Analyzing shared references across papers
Loading...
Fan et al. (Mittw,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e7220eb6db64358769bf83 — DOI: https://doi.org/10.48550/arxiv.2403.18361
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: