August 16, 2024

Gemeinsames Zusammenführen und Beschneiden: adaptive Auswahl der besseren Token-Kompressionsstrategie

Key Points

Key points are not available for this paper at this time.

Abstract

Vision transformer (ViT) wird weit verbreitet eingesetzt, um Aufgaben der künstlichen Intelligenz zu lösen, und erzielt bedeutende Fortschritte in einer Vielzahl von Computer-Vision-Aufgaben. Aufgrund der sekundären Interaktion zwischen Tokens ist jedoch das ViT-Modell ineffizient, was die Anwendung des ViT-Modells in realen Szenarien stark einschränkt. In den letzten Jahren wurde festgestellt, dass nicht alle Tokens gleichermaßen zur endgültigen Vorhersage des Modells beitragen, weshalb Token-Kompressionsmethoden vorgeschlagen wurden, die hauptsächlich in Token-Pruning und Token-Merging unterteilt werden. Wir sind jedoch der Meinung, dass weder Pruning allein, um nicht-kritische Tokens zu reduzieren, noch Merging, um ähnliche Tokens zu reduzieren, optimale Strategien für die Token-Kompression sind. Um diese Herausforderung zu meistern, schlägt diese Arbeit ein Token-Kompressionsframework vor: Joint Merging and Pruning (JMP), das adaptiv eine bessere Token-Kompressionsstrategie basierend auf der Ähnlichkeit zwischen kritischen und nicht-kritischen Tokens in jeder Probe auswählt. JMP reduziert effektiv die Rechenkomplexität bei gleichzeitiger Aufrechterhaltung der Modellleistung und erfordert keine Einführung zusätzlicher trainierbarer Parameter, wodurch ein guter Kompromiss zwischen Effizienz und Leistung erreicht wird. Am Beispiel von DeiT-S reduziert JMP die Gleitkommaoperationen um 35 % und erhöht den Durchsatz um mehr als 45 %, während die Genauigkeit auf ImageNet nur um 0,2 % abnimmt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wei Peng

Liancheng Zeng

Lizhuo Zhang

Journals

Journal of Electronic Imaging

Actions

Institutions

Hunan Agricultural University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Gemeinsames Zusammenführen und Beschneiden: adaptive Auswahl der besseren Token-Kompressionsstrategie

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider