Key points are not available for this paper at this time.
Nous présentons trois nouveaux mécanismes d'attention qui surpassent l'attention multi-tête standard en termes d'efficacité et de capacités d'apprentissage, améliorant ainsi les performances et la déployabilité plus large des modèles Transformer. Notre première contribution est l'Attention Optimisée, qui fonctionne de manière similaire à l'attention standard, mais avec 3/4 du nombre de paramètres et une multiplication matricielle en moins par tête. Ensuite, nous introduisons l'Attention Efficace, qui performe au même niveau que l'attention standard avec seulement la moitié du nombre de paramètres, deux multiplications matricielles en moins par tête, et jusqu'à deux fois plus vite que l'attention standard. Enfin, nous introduisons la Super Attention, qui dépasse l'attention standard de manière significative tant dans les tâches de vision que de traitement du langage naturel tout en ayant moins de paramètres et de multiplications matricielles. En plus de fournir des comparaisons mathématiques rigoureuses, nous évaluons les mécanismes d'attention présentés sur les jeux de données MNIST, CIFAR100, IMDB Movie Reviews et Amazon Reviews.
Building similarity graph...
Analyzing shared references across papers
Loading...
Mehran Hosseini
Peyman Hosseini
Building similarity graph...
Analyzing shared references across papers
Loading...
Hosseini et al. (Sun,) ont étudié cette question.
www.synapsesocial.com/papers/68e75ef7b6db6435876d5d0f — DOI: https://doi.org/10.48550/arxiv.2403.01643
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: