Key points are not available for this paper at this time.
Wir stellen einen neuen Aufmerksamkeitsmechanismus vor, genannt strukturelle Selbstaufmerksamkeit (StructSA), der reichhaltige Korrelationsmuster nutzt, die natürlich in den Schlüssel-Abfrage-Interaktionen der Aufmerksamkeit entstehen. StructSA erzeugt Aufmerksamkeitskarten, indem es Raum-Zeit-Strukturen der Schlüssel-Abfrage-Korrelationen durch Faltung erkennt und diese verwendet, um lokal kontextbezogene Wertmerkmale dynamisch zu aggregieren. Dies nutzt effektiv reichhaltige Strukturmuster in Bildern und Videos wie Szenenlayouts, Objektbewegungen und Beziehungen zwischen Objekten. Durch den Einsatz von StructSA als Hauptbaustein entwickeln wir den strukturellen Vision Transformer (StructViT) und evaluieren dessen Wirksamkeit auf Bild- und Videoklassifizierungsaufgaben, wobei wir Spitzenleistungen auf ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48 und FineGym erzielen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Manjin Kim
Paul Hongsuck Seo
Cordelia Schmid
Building similarity graph...
Analyzing shared references across papers
Loading...
Kim et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e70547b6db64358767f152 — DOI: https://doi.org/10.48550/arxiv.2404.03924
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: