March 31, 2024Open Access

Sobre as Dificuldades da Fatoração de Atenção através de Memória Compartilhada

Key Points

Key points are not available for this paper at this time.

Abstract

Transformers revolucionaram o aprendizado profundo em diversos campos, incluindo processamento de linguagem natural, visão computacional e processamento de áudio. Sua força reside no mecanismo de atenção, que permite descobrir relações complexas de entrada. No entanto, a complexidade quadrática de tempo e memória desse mecanismo representa desafios para entradas maiores. Pesquisadores estão investigando modelos como Linear Unified Nested Attention (Luna) ou Memory Augmented Transformer, que utilizam memória externa aprendível para reduzir a complexidade do cálculo de atenção para linear ou para propagar informações entre segmentos em processamento segmentado. Nossas descobertas desafiam o pensamento convencional sobre esses modelos, revelando que a interface direta com a memória através de uma operação de atenção é subótima, e que o desempenho pode ser consideravelmente melhorado filtrando o sinal de entrada antes da comunicação com a memória.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Uladzislau Yorsh

Martin Holeňa

Ondřej Bojar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Sobre as Dificuldades da Fatoração de Atenção através de Memória Compartilhada

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider