What type of study is this?

This is a Quantitative Study study.

October 3, 2025Open Access

KVCompose : Compression efficace du cache KV structuré avec des jetons composites

Key Points

Réduction significative de la mémoire obtenue avec des jetons composites, tout en maintenant la précision lors de l'inférence sur long contexte.
La méthode guidée par l'attention estime efficacement l'importance des jetons et adapte les budgets de rétention à travers les couches pour l'efficacité.
Compatible avec les moteurs d'inférence existants, améliorant le déploiement pratique des modèles de langage sans restructuration majeure.
Surpasse les méthodes antérieures de compression de cache KV structurées et semi-structurées, répondant aux limitations liées aux longs contextes.

Abstract

Les grands modèles de langage (LLM) s'appuient sur des caches de clés-valeurs (KV) pour un décodage autorégressif efficace ; cependant, la taille du cache croît linéairement avec la longueur du contexte et la profondeur du modèle, devenant un goulet d'étranglement majeur dans l'inférence sur de longs contextes. Les méthodes antérieures de compression de cache KV imposent soit des heuristiques rigides, perturbent la disposition des tenseurs avec une variabilité par tête d'attention, ou nécessitent des noyaux de calcul spécialisés. Nous proposons un cadre simple, mais efficace, de compression de cache KV basé sur des jetons composites adaptatifs par couche, guidés par l'attention. Notre méthode agrège les scores d'attention pour estimer l'importance des jetons, sélectionne indépendamment des jetons spécifiques à chaque tête, et les aligne en jetons composites qui respectent la structure uniforme du cache requise par les moteurs d'inférence existants. Un mécanisme global d'allocation adapte en outre les budgets de rétention entre les couches, attribuant plus de capacité aux couches contenant des jetons informatifs. Cette approche atteint une réduction significative de la mémoire tout en préservant la précision, surpassant constamment les méthodes antérieures structurées et semi-structurées. Fondamentalement, notre approche reste pleinement compatible avec les pipelines d'inférence standard, offrant une solution pratique et évolutive pour un déploiement efficace des LLM avec contexte long.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dmitry Akulov

Mohamed Sana

Antonio De Domenico

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

KVCompose : Compression efficace du cache KV structuré avec des jetons composites

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider