May 22, 2024Open Access

L'attention comme un RNN

Key Points

Key points are not available for this paper at this time.

Abstract

L'avènement des Transformers a marqué une avancée significative dans la modélisation de séquences, offrant une architecture très performante capable de tirer parti du parallélisme GPU. Cependant, les Transformers sont coûteux en calcul au moment de l'inférence, limitant leurs applications, en particulier dans les contextes à ressources limitées (par exemple, dispositifs mobiles et embarqués). Pour répondre à cela, nous (1) commençons par montrer que l'attention peut être vue comme un Récurrent Neural Network (RNN) spécial avec la capacité de calculer efficacement sa sortie RNN many-to-one. Nous (2) montrons ensuite que les modèles populaires basés sur l'attention tels que les Transformers peuvent être considérés comme des variantes de RNN. Cependant, contrairement aux RNN traditionnels (par exemple, LSTMs), ces modèles ne peuvent pas être mis à jour efficacement avec de nouveaux tokens, une propriété importante en modélisation de séquences. Pour y remédier, nous (3) introduisons une nouvelle méthode efficace de calcul de la sortie many-to-many du RNN d'attention basée sur l'algorithme de balayage préfixe parallèle. En nous appuyant sur cette nouvelle formulation de l'attention, nous (4) introduisons Aaren, un module basé sur l'attention qui peut non seulement (i) être entraîné en parallèle (comme les Transformers) mais aussi (ii) être mis à jour efficacement avec de nouveaux tokens, nécessitant seulement une mémoire constante pour les inférences (comme les RNN traditionnels). Empiriquement, nous montrons que Aaren obtiennent des performances comparables à celles des Transformers sur 38 ensembles de données répartis sur quatre tâches séquentielles populaires : apprentissage par renforcement, prévision d'événements, classification de séries temporelles et prévision de séries temporelles tout en étant plus efficaces en temps et en mémoire.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Leo Feng

Frederick Tung

Hossein Hajimirsadeghi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

L'attention comme un RNN

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider