Key points are not available for this paper at this time.
Vision transformer (ViT) wird weit verbreitet eingesetzt, um Aufgaben der künstlichen Intelligenz zu lösen, und erzielt bedeutende Fortschritte in einer Vielzahl von Computer-Vision-Aufgaben. Aufgrund der sekundären Interaktion zwischen Tokens ist jedoch das ViT-Modell ineffizient, was die Anwendung des ViT-Modells in realen Szenarien stark einschränkt. In den letzten Jahren wurde festgestellt, dass nicht alle Tokens gleichermaßen zur endgültigen Vorhersage des Modells beitragen, weshalb Token-Kompressionsmethoden vorgeschlagen wurden, die hauptsächlich in Token-Pruning und Token-Merging unterteilt werden. Wir sind jedoch der Meinung, dass weder Pruning allein, um nicht-kritische Tokens zu reduzieren, noch Merging, um ähnliche Tokens zu reduzieren, optimale Strategien für die Token-Kompression sind. Um diese Herausforderung zu meistern, schlägt diese Arbeit ein Token-Kompressionsframework vor: Joint Merging and Pruning (JMP), das adaptiv eine bessere Token-Kompressionsstrategie basierend auf der Ähnlichkeit zwischen kritischen und nicht-kritischen Tokens in jeder Probe auswählt. JMP reduziert effektiv die Rechenkomplexität bei gleichzeitiger Aufrechterhaltung der Modellleistung und erfordert keine Einführung zusätzlicher trainierbarer Parameter, wodurch ein guter Kompromiss zwischen Effizienz und Leistung erreicht wird. Am Beispiel von DeiT-S reduziert JMP die Gleitkommaoperationen um 35 % und erhöht den Durchsatz um mehr als 45 %, während die Genauigkeit auf ImageNet nur um 0,2 % abnimmt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wei Peng
Liancheng Zeng
Lizhuo Zhang
Journal of Electronic Imaging
Hunan Agricultural University
Building similarity graph...
Analyzing shared references across papers
Loading...
Peng et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e5bfb4b6db643587557e80 — DOI: https://doi.org/10.1117/1.jei.33.4.043045
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: