June 17, 2024Open Access

Uma Estratégia Simples e Eficaz Baseada na Norma L₂ para Compressão do Cache KV

Key Points

Key points are not available for this paper at this time.

Abstract

A implementação de grandes modelos de linguagem (LLMs) é frequentemente dificultada pelos extensos requisitos de memória do cache Key-Value (KV), especialmente à medida que o comprimento do contexto aumenta. Abordagens existentes para reduzir o tamanho do cache KV envolvem ou o ajuste fino do modelo para aprender uma estratégia de compressão ou o aproveitamento das pontuações de atenção para reduzir o comprimento da sequência. Analisamos as distribuições de atenção em modelos baseados em Transformers apenas com decodificador e observamos que os padrões de alocação de atenção permanecem consistentes na maioria das camadas. Surpreendentemente, encontramos uma clara correlação entre a norma L₂ e as pontuações de atenção sobre os pares KV armazenados, onde uma baixa norma L₂ de um embedding de chave geralmente leva a uma alta pontuação de atenção durante a decodificação. Essa descoberta indica que a influência de um par KV é potencialmente determinada pelo embedding da chave antes de ser consultada. Com base nessa observação, comprimimos o cache KV com base na norma L₂ dos embeddings das chaves. Nossos resultados experimentais mostram que essa estratégia simples pode reduzir o tamanho do cache KV em 50% em tarefas de modelagem de linguagem e "needle-in-a-haystack" e 90% em tarefas de recuperação de passkeys, sem perda de precisão.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alessio Devoto

Yu Zhao

Simone Scardapane

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Uma Estratégia Simples e Eficaz Baseada na Norma L₂ para Compressão do Cache KV

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider