March 3, 2024Open Access

Vous devez mieux faire attention

Key Points

Key points are not available for this paper at this time.

Abstract

Nous présentons trois nouveaux mécanismes d'attention qui surpassent l'attention multi-tête standard en termes d'efficacité et de capacités d'apprentissage, améliorant ainsi les performances et la déployabilité plus large des modèles Transformer. Notre première contribution est l'Attention Optimisée, qui fonctionne de manière similaire à l'attention standard, mais avec 3/4 du nombre de paramètres et une multiplication matricielle en moins par tête. Ensuite, nous introduisons l'Attention Efficace, qui performe au même niveau que l'attention standard avec seulement la moitié du nombre de paramètres, deux multiplications matricielles en moins par tête, et jusqu'à deux fois plus vite que l'attention standard. Enfin, nous introduisons la Super Attention, qui dépasse l'attention standard de manière significative tant dans les tâches de vision que de traitement du langage naturel tout en ayant moins de paramètres et de multiplications matricielles. En plus de fournir des comparaisons mathématiques rigoureuses, nous évaluons les mécanismes d'attention présentés sur les jeux de données MNIST, CIFAR100, IMDB Movie Reviews et Amazon Reviews.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Mehran Hosseini

Peyman Hosseini

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Vous devez mieux faire attention

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider