June 24, 2024Open Access

Mais Esparso é Mais Rápido e Menos é Mais: Atenção Esparsa Eficiente para Transformadores de Longo Alcance

Key Points

Key points are not available for this paper at this time.

Abstract

Adaptar sequências longas de forma eficiente em Transformadores autoregressivos, especialmente dentro de uma janela de contexto estendida, apresenta desafios significativos devido à complexidade computacional quadrática e às substanciais exigências de memória KV inerentes aos mecanismos de autoatenção. Neste trabalho, introduzimos a Atenção SPARSEK, um novo mecanismo de atenção esparsa projetado para superar esses obstáculos computacionais e de memória enquanto mantém o desempenho. Nossa abordagem integra uma rede de pontuação e um operador de máscara top-k diferenciável, SPARSEK, para selecionar um número constante de pares KV para cada consulta, permitindo assim a otimização baseada em gradiente. Como resultado, a Atenção SPARSEK oferece complexidade de tempo linear e ocupação de memória constante durante a geração. Resultados experimentais revelam que a Atenção SPARSEK supera métodos anteriores de atenção esparsa e proporciona melhorias significativas de velocidade tanto durante o treinamento quanto na inferência, especialmente em modelagem de linguagem e tarefas subsequentes. Além disso, nosso método pode ser integrado de forma fluida em Grandes Modelos de Linguagem (LLMs) pré-treinados com ajuste fino mínimo, oferecendo uma solução prática para gerenciar efetivamente dependências de longo alcance em diversas aplicações.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chao Lou

Zixia Jia

Zilong Zheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mais Esparso é Mais Rápido e Menos é Mais: Atenção Esparsa Eficiente para Transformadores de Longo Alcance

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider