Key points are not available for this paper at this time.
A implementação de grandes modelos de linguagem (LLMs) é frequentemente dificultada pelos extensos requisitos de memória do cache Key-Value (KV), especialmente à medida que o comprimento do contexto aumenta. Abordagens existentes para reduzir o tamanho do cache KV envolvem ou o ajuste fino do modelo para aprender uma estratégia de compressão ou o aproveitamento das pontuações de atenção para reduzir o comprimento da sequência. Analisamos as distribuições de atenção em modelos baseados em Transformers apenas com decodificador e observamos que os padrões de alocação de atenção permanecem consistentes na maioria das camadas. Surpreendentemente, encontramos uma clara correlação entre a norma L₂ e as pontuações de atenção sobre os pares KV armazenados, onde uma baixa norma L₂ de um embedding de chave geralmente leva a uma alta pontuação de atenção durante a decodificação. Essa descoberta indica que a influência de um par KV é potencialmente determinada pelo embedding da chave antes de ser consultada. Com base nessa observação, comprimimos o cache KV com base na norma L₂ dos embeddings das chaves. Nossos resultados experimentais mostram que essa estratégia simples pode reduzir o tamanho do cache KV em 50% em tarefas de modelagem de linguagem e "needle-in-a-haystack" e 90% em tarefas de recuperação de passkeys, sem perda de precisão.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alessio Devoto
Yu Zhao
Simone Scardapane
Building similarity graph...
Analyzing shared references across papers
Loading...
Devoto et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e64779b6db6435875d908a — DOI: https://doi.org/10.48550/arxiv.2406.11430
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: