What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

Beschleunigung der LLM-Inferenz durch dynamische KV-Cache-Platzierung in heterogenen Speichersystemen

Key Points

Die dynamische Platzierung des KV-Caches kann die Speicherbandbreitenauslastung während der LLM-Inferenz erheblich verbessern und somit die Gesamtleistung erhöhen.
Die mathematische Formulierung des Cache-Platzierungsproblems zeigte erhebliches Potenzial für Laufzeitoptimierungen in speicherbegrenzten Umgebungen auf.
Die Studie untersucht die Vorteile heterogener Speichersysteme, die Hochbandbreitenspeicher und schnellen DRAM für LLM-Operationen integrieren.
Zentrale Erkenntnisse deuten darauf hin, dass die Integration dynamischer Cache-Platzierung die Datenverarbeitung optimieren und den Speicherverkehr reduzieren kann.

Abstract

Die Inferenz großer Sprachmodelle (LLM) wird zunehmend durch die Speicherbandbreite eingeschränkt, wobei der häufige Zugriff auf den Key-Value (KV)-Cache die Datenbewegung dominiert. Während Aufmerksamkeitssparsity einen Teil des Speicherverkehrs reduziert, variiert die Relevanz vergangener Tokens über die Zeit, was erfordert, dass der gesamte KV-Cache zugänglich bleibt und somit sowohl Bandbreite als auch Kapazität belastet. Mit Fortschritten in Interconnects wie NVLink und LPDDR5X integrieren moderne KI-Hardware nun Hochbandbreitenspeicher (HBM) mit schnellem, externem DRAM, wodurch heterogene Speichersysteme zu einer praktikablen Lösung werden. Diese Arbeit untersucht die dynamische Platzierung des KV-Caches über solche Systeme hinweg, um die aggregierte Bandbreitenauslastung unter Kapazitätsbeschränkungen zu maximieren. Anstatt eine spezifische Planungsrichtlinie vorzuschlagen, formulieren wir das Platzierungsproblem mathematisch und leiten eine theoretische obere Grenze ab, die erhebliches Optimierungspotenzial zur Laufzeit offenbart. Nach unserem Kenntnisstand ist dies die erste formale Behandlung der dynamischen KV-Cache-Planung in heterogenen Speichersystemen für LLM-Inferenz.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yunting Fang

Rui Xie

Asad Ul Haq

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Beschleunigung der LLM-Inferenz durch dynamische KV-Cache-Platzierung in heterogenen Speichersystemen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider