Key points are not available for this paper at this time.
Transformers revolucionaram o aprendizado profundo em diversos campos, incluindo processamento de linguagem natural, visão computacional e processamento de áudio. Sua força reside no mecanismo de atenção, que permite descobrir relações complexas de entrada. No entanto, a complexidade quadrática de tempo e memória desse mecanismo representa desafios para entradas maiores. Pesquisadores estão investigando modelos como Linear Unified Nested Attention (Luna) ou Memory Augmented Transformer, que utilizam memória externa aprendível para reduzir a complexidade do cálculo de atenção para linear ou para propagar informações entre segmentos em processamento segmentado. Nossas descobertas desafiam o pensamento convencional sobre esses modelos, revelando que a interface direta com a memória através de uma operação de atenção é subótima, e que o desempenho pode ser consideravelmente melhorado filtrando o sinal de entrada antes da comunicação com a memória.
Building similarity graph...
Analyzing shared references across papers
Loading...
Uladzislau Yorsh
Martin Holeňa
Ondřej Bojar
Building similarity graph...
Analyzing shared references across papers
Loading...
Yorsh et al. (Sun,) estudaram essa questão.
www.synapsesocial.com/papers/68e718f1b6db64358769252c — DOI: https://doi.org/10.48550/arxiv.2404.00798
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: