Key points are not available for this paper at this time.
Effiziente Nutzung des GPU-Speichers ist entscheidend für eine hohe Durchsatzrate bei der LLM-Inferenz. Frühere Systeme reservierten den Speicher für den KV-Cache im Voraus, was aufgrund interner Fragmentierung zu verschwendeter Kapazität führte. Inspiriert von auf Betriebssystemen basierenden virtuellen Speichersystemen schlug vLLM PagedAttention vor, um eine dynamische Speicherzuweisung für den KV-Cache zu ermöglichen. Dieser Ansatz beseitigt Fragmentierung und ermöglicht ein LLM-Serving mit größerer Batch-Größe und hohem Durchsatz. Um jedoch physischen Speicher dynamisch zuweisen zu können, verändert PagedAttention das Layout des KV-Caches von zusammenhängendem virtuellem Speicher zu nicht zusammenhängendem virtuellem Speicher. Diese Änderung erfordert, dass Attention-Kernel neu geschrieben werden, um Paging zu unterstützen, und das Serving-Framework einen Speicher-Manager implementiert. Somit führt das PagedAttention-Modell zu Software-Komplexität, Portabilitätsproblemen, Redundanz und Ineffizienz. In diesem Papier schlagen wir vAttention für die dynamische Speicherverwaltung des KV-Caches vor. Im Gegensatz zu PagedAttention belässt vAttention den KV-Cache im zusammenhängenden virtuellen Speicher und nutzt die bereits vorhandene Systemunterstützung auf niedriger Ebene für Demand Paging, um eine bedarfsorientierte physische Speicherzuweisung zu ermöglichen. Dadurch wird der Entwickler des Attention-Kernels von der expliziten Unterstützung des Paging befreit und die Neuimplementierung der Speicherverwaltung im Serving-Framework vermieden. Wir zeigen, dass vAttention nahtlose dynamische Speicherverwaltung für unveränderte Implementierungen verschiedener Attention-Kernel ermöglicht. vAttention erzeugt zudem Tokens bis zu 1,97-mal schneller als vLLM, während es Eingabeaufforderungen bis zu 3,92-mal bzw. 1,45-mal schneller als die PagedAttention-Varianten von FlashAttention und FlashInfer verarbeitet.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ramya Prabhu
A.K. Nayak
Jayashree Mohan
Building similarity graph...
Analyzing shared references across papers
Loading...
Prabhu et al. (Tue,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e6b4c2b6db643587635885 — DOI: https://doi.org/10.48550/arxiv.2405.04437