Key points are not available for this paper at this time.
O armazenamento em cache Key-Value (KV) tornou-se uma técnica essencial para acelerar a velocidade de inferência e o throughput de Grandes Modelos de Linguagem Generativa (LLMs). No entanto, a pegada de memória do cache KV representa um gargalo crítico na implantação de LLMs, pois o tamanho do cache cresce com o tamanho do lote e o comprimento da sequência, frequentemente ultrapassando até mesmo o tamanho do próprio modelo. Embora métodos recentes tenham sido propostos para selecionar e remover pares KV menos importantes do cache para reduzir o consumo de memória, as potenciais consequências da remoção no processo generativo ainda não foram examinadas exaustivamente. Neste artigo, examinamos o impacto prejudicial da remoção do cache e observamos que riscos inesperados surgem à medida que a informação contida nos pares KV é completamente descartada, resultando em falhas de segurança, alucinações e perda de contexto. Surpreendentemente, descobrimos que preservar até mesmo uma pequena quantidade da informação contida nos pares KV removidos via quantização de precisão reduzida recupera substancialmente a degradação causada. Por outro lado, observamos que os pares KV importantes devem ser mantidos em uma precisão relativamente maior para salvaguardar a qualidade da geração. Motivados por essas observações, propomos o cache KV de precisão mista (MiKV), um método confiável de compressão de cache que simultaneamente preserva os detalhes do contexto retendo os pares KV removidos em baixa precisão e assegura a qualidade da geração mantendo os pares KV importantes em alta precisão. Experimentos em diversos benchmarks e arquiteturas de LLM mostram que nosso método proposto oferece um equilíbrio estado-da-arte entre taxa de compressão e desempenho, comparado a outras abordagens basais.
Building similarity graph...
Analyzing shared references across papers
Loading...
June Yong Yang
Byeongwook Kim
Jeongin Bae
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (quarta-feira) estudaram esta questão.
www.synapsesocial.com/papers/68e7741eb6db6435876e91f7 — DOI: https://doi.org/10.48550/arxiv.2402.18096
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: