Key points are not available for this paper at this time.
L'avènement des Transformers a marqué une avancée significative dans la modélisation de séquences, offrant une architecture très performante capable de tirer parti du parallélisme GPU. Cependant, les Transformers sont coûteux en calcul au moment de l'inférence, limitant leurs applications, en particulier dans les contextes à ressources limitées (par exemple, dispositifs mobiles et embarqués). Pour répondre à cela, nous (1) commençons par montrer que l'attention peut être vue comme un Récurrent Neural Network (RNN) spécial avec la capacité de calculer efficacement sa sortie RNN many-to-one. Nous (2) montrons ensuite que les modèles populaires basés sur l'attention tels que les Transformers peuvent être considérés comme des variantes de RNN. Cependant, contrairement aux RNN traditionnels (par exemple, LSTMs), ces modèles ne peuvent pas être mis à jour efficacement avec de nouveaux tokens, une propriété importante en modélisation de séquences. Pour y remédier, nous (3) introduisons une nouvelle méthode efficace de calcul de la sortie many-to-many du RNN d'attention basée sur l'algorithme de balayage préfixe parallèle. En nous appuyant sur cette nouvelle formulation de l'attention, nous (4) introduisons Aaren, un module basé sur l'attention qui peut non seulement (i) être entraîné en parallèle (comme les Transformers) mais aussi (ii) être mis à jour efficacement avec de nouveaux tokens, nécessitant seulement une mémoire constante pour les inférences (comme les RNN traditionnels). Empiriquement, nous montrons que Aaren obtiennent des performances comparables à celles des Transformers sur 38 ensembles de données répartis sur quatre tâches séquentielles populaires : apprentissage par renforcement, prévision d'événements, classification de séries temporelles et prévision de séries temporelles tout en étant plus efficaces en temps et en mémoire.
Building similarity graph...
Analyzing shared references across papers
Loading...
Leo Feng
Frederick Tung
Hossein Hajimirsadeghi
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng et al. (Mercredi,) ont étudié cette question.
www.synapsesocial.com/papers/68e68e7db6db643587615cc0 — DOI: https://doi.org/10.48550/arxiv.2405.13956
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: