February 28, 2024Open Access

Nenhum Token Deixado para Trás: Compressão Confiável do Cache KV via Quantização de Precisão Mista Consciente de Importância

Key Points

Key points are not available for this paper at this time.

Abstract

O armazenamento em cache Key-Value (KV) tornou-se uma técnica essencial para acelerar a velocidade de inferência e o throughput de Grandes Modelos de Linguagem Generativa (LLMs). No entanto, a pegada de memória do cache KV representa um gargalo crítico na implantação de LLMs, pois o tamanho do cache cresce com o tamanho do lote e o comprimento da sequência, frequentemente ultrapassando até mesmo o tamanho do próprio modelo. Embora métodos recentes tenham sido propostos para selecionar e remover pares KV menos importantes do cache para reduzir o consumo de memória, as potenciais consequências da remoção no processo generativo ainda não foram examinadas exaustivamente. Neste artigo, examinamos o impacto prejudicial da remoção do cache e observamos que riscos inesperados surgem à medida que a informação contida nos pares KV é completamente descartada, resultando em falhas de segurança, alucinações e perda de contexto. Surpreendentemente, descobrimos que preservar até mesmo uma pequena quantidade da informação contida nos pares KV removidos via quantização de precisão reduzida recupera substancialmente a degradação causada. Por outro lado, observamos que os pares KV importantes devem ser mantidos em uma precisão relativamente maior para salvaguardar a qualidade da geração. Motivados por essas observações, propomos o cache KV de precisão mista (MiKV), um método confiável de compressão de cache que simultaneamente preserva os detalhes do contexto retendo os pares KV removidos em baixa precisão e assegura a qualidade da geração mantendo os pares KV importantes em alta precisão. Experimentos em diversos benchmarks e arquiteturas de LLM mostram que nosso método proposto oferece um equilíbrio estado-da-arte entre taxa de compressão e desempenho, comparado a outras abordagens basais.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

June Yong Yang

Byeongwook Kim

Jeongin Bae

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Nenhum Token Deixado para Trás: Compressão Confiável do Cache KV via Quantização de Precisão Mista Consciente de Importância

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider