Die Inferenz großer Sprachmodelle (LLM) wird zunehmend durch die Speicherbandbreite eingeschränkt, wobei der häufige Zugriff auf den Key-Value (KV)-Cache die Datenbewegung dominiert. Während Aufmerksamkeitssparsity einen Teil des Speicherverkehrs reduziert, variiert die Relevanz vergangener Tokens über die Zeit, was erfordert, dass der gesamte KV-Cache zugänglich bleibt und somit sowohl Bandbreite als auch Kapazität belastet. Mit Fortschritten in Interconnects wie NVLink und LPDDR5X integrieren moderne KI-Hardware nun Hochbandbreitenspeicher (HBM) mit schnellem, externem DRAM, wodurch heterogene Speichersysteme zu einer praktikablen Lösung werden. Diese Arbeit untersucht die dynamische Platzierung des KV-Caches über solche Systeme hinweg, um die aggregierte Bandbreitenauslastung unter Kapazitätsbeschränkungen zu maximieren. Anstatt eine spezifische Planungsrichtlinie vorzuschlagen, formulieren wir das Platzierungsproblem mathematisch und leiten eine theoretische obere Grenze ab, die erhebliches Optimierungspotenzial zur Laufzeit offenbart. Nach unserem Kenntnisstand ist dies die erste formale Behandlung der dynamischen KV-Cache-Planung in heterogenen Speichersystemen für LLM-Inferenz.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yunting Fang
Rui Xie
Asad Ul Haq
Building similarity graph...
Analyzing shared references across papers
Loading...
Fang et al. (Sun,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68ed1896f29694dd1da78bee — DOI: https://doi.org/10.48550/arxiv.2508.13231
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: