Key points are not available for this paper at this time.
Résumé Cet article aborde la complexité computationnelle et spatiale élevée associée à l'auto-attention multi-têtes (MHSA) dans les transformateurs de vision classiques. À cette fin, nous proposons MHSA hiérarchique (H-MHSA), une approche novatrice qui calcule l'auto-attention de manière hiérarchique. Plus précisément, nous divisons d'abord l'image d'entrée en patchs comme d'habitude, chaque patch étant considéré comme un jeton. Ensuite, le H-MHSA proposé apprend les relations entre les jetons au sein des patchs locaux, servant de modélisation des relations locales. Ensuite, les petits patchs sont fusionnés en plus grands, et H-MHSA modélise les dépendances globales pour le petit nombre de jetons fusionnés. Enfin, les caractéristiques attentives locales et globales sont agrégées pour obtenir des représentations dotées d'une capacité expressive puissante. Puisque nous ne calculons l'attention que pour un nombre limité de jetons à chaque étape, la charge computationnelle est drastiquement réduite. Ainsi, H-MHSA peut modéliser efficacement les relations globales entre jetons sans sacrifier l'information fine. Avec le module H-MHSA intégré, nous construisons une famille de réseaux de transformateurs basés sur l'attention hiérarchique, nommée HAT-Net. Pour démontrer la supériorité de HAT-Net en compréhension de scènes, nous réalisons de nombreuses expériences sur des tâches fondamentales en vision, notamment classification d'images, segmentation sémantique, détection d'objets et segmentation d'instances. Par conséquent, HAT-Net offre une nouvelle perspective pour les transformateurs de vision. Le code et les modèles pré-entraînés sont disponibles sur https://github.com/yun-liu/HAT-Net.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yun Liu
Yu-Huan Wu
Guolei Sun
ETH Zurich
Agency for Science, Technology and Research
University of Electronic Science and Technology of China
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Ven,) ont étudié cette question.
www.synapsesocial.com/papers/68e6e657b6db64358766136d — DOI: https://doi.org/10.1007/s11633-024-1393-8
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: