April 5, 2024Open Access

Erlernen von Korrelationsstrukturen für Vision Transformer

Key Points

Key points are not available for this paper at this time.

Abstract

Wir stellen einen neuen Aufmerksamkeitsmechanismus vor, genannt strukturelle Selbstaufmerksamkeit (StructSA), der reichhaltige Korrelationsmuster nutzt, die natürlich in den Schlüssel-Abfrage-Interaktionen der Aufmerksamkeit entstehen. StructSA erzeugt Aufmerksamkeitskarten, indem es Raum-Zeit-Strukturen der Schlüssel-Abfrage-Korrelationen durch Faltung erkennt und diese verwendet, um lokal kontextbezogene Wertmerkmale dynamisch zu aggregieren. Dies nutzt effektiv reichhaltige Strukturmuster in Bildern und Videos wie Szenenlayouts, Objektbewegungen und Beziehungen zwischen Objekten. Durch den Einsatz von StructSA als Hauptbaustein entwickeln wir den strukturellen Vision Transformer (StructViT) und evaluieren dessen Wirksamkeit auf Bild- und Videoklassifizierungsaufgaben, wobei wir Spitzenleistungen auf ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48 und FineGym erzielen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Manjin Kim

Paul Hongsuck Seo

Cordelia Schmid

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Erlernen von Korrelationsstrukturen für Vision Transformer

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider