Key points are not available for this paper at this time.
Der Vision Transformer (ViT) zeichnet sich durch hohe Genauigkeit bei der Verarbeitung von hochauflösenden Bildern aus, steht jedoch vor der Herausforderung erheblicher räumlicher Redundanz, die zu erhöhtem Rechen- und Speicheraufwand führt. Um dem entgegenzuwirken, stellen wir den Localization and Focus Vision Transformer (LF-ViT) vor. Dieses Modell arbeitet, indem es strategisch den Rechenaufwand reduziert, ohne die Leistung zu beeinträchtigen. In der Lokalisation-Phase wird ein Bild mit verringerter Auflösung verarbeitet; wenn eine eindeutige Vorhersage ausbleibt, wird unser neuartiger Neighborhood Global Class Attention (NGCA)-Mechanismus aktiviert, der effektiv klassenunterscheidende Bereiche basierend auf den anfänglichen Ergebnissen identifiziert und hervorhebt. Anschließend wird in der Fokus-Phase dieser bestimmte Bereich aus dem Originalbild zur verbesserten Erkennung genutzt. Einzigartig dabei ist, dass LF-ViT in beiden Phasen konsistente Parameter verwendet, was eine nahtlose End-to-End-Optimierung gewährleistet. Unsere empirischen Tests bestätigen die Leistungsfähigkeit von LF-ViT: Es reduziert die FLOPs von Deit-S um bemerkenswerte 63 % und verdoppelt gleichzeitig den Durchsatz. Der Code dieses Projekts ist verfügbar unter https://github.com/edgeai1/LF-ViT.git.
Building similarity graph...
Analyzing shared references across papers
Loading...
Youbing Hu
Yun Cheng
Anqi Lu
Harbin Institute of Technology
Xidian University
Swiss Data Science Center
Building similarity graph...
Analyzing shared references across papers
Loading...
Hu et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e72968b6db6435876a3871 — DOI: https://doi.org/10.1609/aaai.v38i3.28001
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: