What type of study is this?

This is a Quantitative Study study.

October 13, 2025Open Access

Aceleração da Inferência de LLM via Posicionamento Dinâmico de Cache KV em Sistema de Memória Heterogêneo

Key Points

O posicionamento dinâmico do cache KV pode melhorar significativamente a utilização da largura de banda da memória durante a inferência de LLM, aprimorando o desempenho geral.
A formulação matemática do problema de posicionamento do cache revelou ampla margem para otimização em tempo de execução em ambientes com restrição de memória.
O estudo explora os benefícios dos sistemas de memória heterogêneos que incorporam memória de alta largura de banda e DRAM de alta velocidade para operações de LLM.
As principais conclusões sugerem que a integração do posicionamento dinâmico do cache pode otimizar o manuseio de dados com demandas reduzidas de tráfego de memória.

Abstract

A inferência de Large Language Model (LLM) está cada vez mais limitada pela largura de banda da memória, com o acesso frequente ao cache de chave-valor (KV) dominando o movimento de dados. Embora a esparsidade da atenção reduza algum tráfego de memória, a relevância de tokens passados varia ao longo do tempo, exigindo que o cache KV completo permaneça acessível e sustentando a pressão tanto na largura de banda quanto na capacidade. Com avanços em interconexões como NVLink e LPDDR5X, o hardware moderno de IA agora integra memória de alta largura de banda (HBM) com DRAM de alta velocidade fora do pacote, tornando os sistemas de memória heterogêneos uma solução prática. Este trabalho investiga o posicionamento dinâmico do cache KV ao longo desses sistemas para maximizar a utilização agregada da largura de banda sob restrições de capacidade. Em vez de propor uma política de agendamento específica, formulamos o problema de posicionamento matematicamente e derivamos um limite superior teórico, revelando uma margem substancial para otimização em tempo de execução. Até onde sabemos, este é o primeiro tratamento formal do agendamento dinâmico de cache KV em sistemas de memória heterogêneos para inferência de LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yunting Fang

Rui Xie

Asad Ul Haq

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aceleração da Inferência de LLM via Posicionamento Dinâmico de Cache KV em Sistema de Memória Heterogêneo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study