Key points are not available for this paper at this time.
Adaptar sequências longas de forma eficiente em Transformadores autoregressivos, especialmente dentro de uma janela de contexto estendida, apresenta desafios significativos devido à complexidade computacional quadrática e às substanciais exigências de memória KV inerentes aos mecanismos de autoatenção. Neste trabalho, introduzimos a Atenção SPARSEK, um novo mecanismo de atenção esparsa projetado para superar esses obstáculos computacionais e de memória enquanto mantém o desempenho. Nossa abordagem integra uma rede de pontuação e um operador de máscara top-k diferenciável, SPARSEK, para selecionar um número constante de pares KV para cada consulta, permitindo assim a otimização baseada em gradiente. Como resultado, a Atenção SPARSEK oferece complexidade de tempo linear e ocupação de memória constante durante a geração. Resultados experimentais revelam que a Atenção SPARSEK supera métodos anteriores de atenção esparsa e proporciona melhorias significativas de velocidade tanto durante o treinamento quanto na inferência, especialmente em modelagem de linguagem e tarefas subsequentes. Além disso, nosso método pode ser integrado de forma fluida em Grandes Modelos de Linguagem (LLMs) pré-treinados com ajuste fino mínimo, oferecendo uma solução prática para gerenciar efetivamente dependências de longo alcance em diversas aplicações.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chao Lou
Zixia Jia
Zilong Zheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Lou et al. (Seg,) estudaram esta questão.
www.synapsesocial.com/papers/68e637feb6db6435875c9d78 — DOI: https://doi.org/10.48550/arxiv.2406.16747
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: