June 1, 2024Open Access

Vous n'avez besoin que de moins d'attention à chaque étape dans les Vision Transformers

Key Points

Key points are not available for this paper at this time.

Abstract

L'avènement des Vision Transformers (ViTs) marque un changement de paradigme majeur dans le domaine de la vision par ordinateur. Les ViTs capturent l'information globale des images grâce à des modules d'auto-attention, qui effectuent des calculs de produit scalaire entre les tokens d'images découpées en patches. Alors que les modules d'auto-attention permettent aux ViTs de capter des dépendances à longue portée, la complexité computationnelle croît quadratiquement avec le nombre de tokens, ce qui constitue un obstacle majeur à l'application pratique des ViTs. De plus, le mécanisme d'auto-attention dans les ViTs profonds est également susceptible de souffrir du problème de saturation de l'attention. En conséquence, nous remettons en question la nécessité de calculer les scores d'attention à chaque couche, et nous proposons le Less-Attention Vision Transformer (LaViT), qui effectue seulement quelques opérations d'attention à chaque étape et calcule les alignements de caractéristiques ultérieurs dans d'autres couches via des transformations d'attention qui exploitent les scores d'attention calculés précédemment. Cette approche novatrice peut atténuer deux problèmes principaux affectant les modules traditionnels d'auto-attention : la lourde charge computationnelle et la saturation de l'attention. Notre architecture proposée offre une efficacité supérieure et une facilité de mise en œuvre, nécessitant uniquement des multiplications matricielles hautement optimisées dans les cadres modernes d'apprentissage profond. De plus, notre architecture démontre des performances exceptionnelles sur diverses tâches de vision, y compris la classification, la détection et la segmentation.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuoxi Zhang

Hanpeng Liu

Stephen Lin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Vous n'avez besoin que de moins d'attention à chaque étape dans les Vision Transformers

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider