April 19, 2024Open Access

Transformateurs de vision avec attention hiérarchique

Key Points

Key points are not available for this paper at this time.

Abstract

Résumé Cet article aborde la complexité computationnelle et spatiale élevée associée à l'auto-attention multi-têtes (MHSA) dans les transformateurs de vision classiques. À cette fin, nous proposons MHSA hiérarchique (H-MHSA), une approche novatrice qui calcule l'auto-attention de manière hiérarchique. Plus précisément, nous divisons d'abord l'image d'entrée en patchs comme d'habitude, chaque patch étant considéré comme un jeton. Ensuite, le H-MHSA proposé apprend les relations entre les jetons au sein des patchs locaux, servant de modélisation des relations locales. Ensuite, les petits patchs sont fusionnés en plus grands, et H-MHSA modélise les dépendances globales pour le petit nombre de jetons fusionnés. Enfin, les caractéristiques attentives locales et globales sont agrégées pour obtenir des représentations dotées d'une capacité expressive puissante. Puisque nous ne calculons l'attention que pour un nombre limité de jetons à chaque étape, la charge computationnelle est drastiquement réduite. Ainsi, H-MHSA peut modéliser efficacement les relations globales entre jetons sans sacrifier l'information fine. Avec le module H-MHSA intégré, nous construisons une famille de réseaux de transformateurs basés sur l'attention hiérarchique, nommée HAT-Net. Pour démontrer la supériorité de HAT-Net en compréhension de scènes, nous réalisons de nombreuses expériences sur des tâches fondamentales en vision, notamment classification d'images, segmentation sémantique, détection d'objets et segmentation d'instances. Par conséquent, HAT-Net offre une nouvelle perspective pour les transformateurs de vision. Le code et les modèles pré-entraînés sont disponibles sur https://github.com/yun-liu/HAT-Net.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yun Liu

Yu-Huan Wu

Guolei Sun

Actions

Institutions

ETH Zurich

Agency for Science, Technology and Research

University of Electronic Science and Technology of China

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Transformateurs de vision avec attention hiérarchique

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider