A inferência de Large Language Model (LLM) está cada vez mais limitada pela largura de banda da memória, com o acesso frequente ao cache de chave-valor (KV) dominando o movimento de dados. Embora a esparsidade da atenção reduza algum tráfego de memória, a relevância de tokens passados varia ao longo do tempo, exigindo que o cache KV completo permaneça acessível e sustentando a pressão tanto na largura de banda quanto na capacidade. Com avanços em interconexões como NVLink e LPDDR5X, o hardware moderno de IA agora integra memória de alta largura de banda (HBM) com DRAM de alta velocidade fora do pacote, tornando os sistemas de memória heterogêneos uma solução prática. Este trabalho investiga o posicionamento dinâmico do cache KV ao longo desses sistemas para maximizar a utilização agregada da largura de banda sob restrições de capacidade. Em vez de propor uma política de agendamento específica, formulamos o problema de posicionamento matematicamente e derivamos um limite superior teórico, revelando uma margem substancial para otimização em tempo de execução. Até onde sabemos, este é o primeiro tratamento formal do agendamento dinâmico de cache KV em sistemas de memória heterogêneos para inferência de LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yunting Fang
Rui Xie
Asad Ul Haq
Building similarity graph...
Analyzing shared references across papers
Loading...
Fang et al. (Sun,) estudaram esta questão.
www.synapsesocial.com/papers/68ed1896f29694dd1da78bee — DOI: https://doi.org/10.48550/arxiv.2508.13231