Les grands modèles de langage (LLM) s'appuient sur des caches de clés-valeurs (KV) pour un décodage autorégressif efficace ; cependant, la taille du cache croît linéairement avec la longueur du contexte et la profondeur du modèle, devenant un goulet d'étranglement majeur dans l'inférence sur de longs contextes. Les méthodes antérieures de compression de cache KV imposent soit des heuristiques rigides, perturbent la disposition des tenseurs avec une variabilité par tête d'attention, ou nécessitent des noyaux de calcul spécialisés. Nous proposons un cadre simple, mais efficace, de compression de cache KV basé sur des jetons composites adaptatifs par couche, guidés par l'attention. Notre méthode agrège les scores d'attention pour estimer l'importance des jetons, sélectionne indépendamment des jetons spécifiques à chaque tête, et les aligne en jetons composites qui respectent la structure uniforme du cache requise par les moteurs d'inférence existants. Un mécanisme global d'allocation adapte en outre les budgets de rétention entre les couches, attribuant plus de capacité aux couches contenant des jetons informatifs. Cette approche atteint une réduction significative de la mémoire tout en préservant la précision, surpassant constamment les méthodes antérieures structurées et semi-structurées. Fondamentalement, notre approche reste pleinement compatible avec les pipelines d'inférence standard, offrant une solution pratique et évolutive pour un déploiement efficace des LLM avec contexte long.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dmitry Akulov
Mohamed Sana
Antonio De Domenico
Building similarity graph...
Analyzing shared references across papers
Loading...
Akulov et al. (Ven,) ont étudié cette question.
www.synapsesocial.com/papers/68e02f46f0e39f13e7fa2eab — DOI: https://doi.org/10.48550/arxiv.2509.05165
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: