Key points are not available for this paper at this time.
Otimizar o cache Key-Value (KV) do Large Language Model (LLM) tem sido considerado crítico para economizar o custo da inferência. A maioria dos algoritmos existentes de compressão de KV-cache tentou esparsificar a sequência de tokens aproveitando a importância diferente dos tokens. Neste trabalho, descobrimos que, ao identificar a importância das camadas de atenção, podemos otimizar o KV-cache conjuntamente a partir de duas dimensões. Baseado em nossas observações sobre a importância por camada na inferência, propomos o SqueezeAttention para otimizar precisamente a alocação do orçamento do KV-cache entre as camadas em tempo real e, em seguida, incorporar três algoritmos representativos de esparsificação de tokens para comprimir o KV-cache para cada camada com seu próprio orçamento. Ao otimizar o KV-cache tanto nas dimensões da sequência quanto da camada, o SqueezeAttention alcança cerca de 30% a 70% de redução de memória e até 2,2 vezes de melhoria na taxa de processamento em uma ampla gama de LLMs e benchmarks. O código está disponível em https://github.com/hetailang/SqueezeAttention.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zihao Wang
Shaoduo Gan
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Sat,) estudaram esta questão.
www.synapsesocial.com/papers/68e7031db6db64358767cead — DOI: https://doi.org/10.48550/arxiv.2404.04793