May 7, 2024Open Access

vAttention: Dynamische Speicherverwaltung für das Serving von LLMs ohne PagedAttention

Key Points

Key points are not available for this paper at this time.

Abstract

Effiziente Nutzung des GPU-Speichers ist entscheidend für eine hohe Durchsatzrate bei der LLM-Inferenz. Frühere Systeme reservierten den Speicher für den KV-Cache im Voraus, was aufgrund interner Fragmentierung zu verschwendeter Kapazität führte. Inspiriert von auf Betriebssystemen basierenden virtuellen Speichersystemen schlug vLLM PagedAttention vor, um eine dynamische Speicherzuweisung für den KV-Cache zu ermöglichen. Dieser Ansatz beseitigt Fragmentierung und ermöglicht ein LLM-Serving mit größerer Batch-Größe und hohem Durchsatz. Um jedoch physischen Speicher dynamisch zuweisen zu können, verändert PagedAttention das Layout des KV-Caches von zusammenhängendem virtuellem Speicher zu nicht zusammenhängendem virtuellem Speicher. Diese Änderung erfordert, dass Attention-Kernel neu geschrieben werden, um Paging zu unterstützen, und das Serving-Framework einen Speicher-Manager implementiert. Somit führt das PagedAttention-Modell zu Software-Komplexität, Portabilitätsproblemen, Redundanz und Ineffizienz. In diesem Papier schlagen wir vAttention für die dynamische Speicherverwaltung des KV-Caches vor. Im Gegensatz zu PagedAttention belässt vAttention den KV-Cache im zusammenhängenden virtuellen Speicher und nutzt die bereits vorhandene Systemunterstützung auf niedriger Ebene für Demand Paging, um eine bedarfsorientierte physische Speicherzuweisung zu ermöglichen. Dadurch wird der Entwickler des Attention-Kernels von der expliziten Unterstützung des Paging befreit und die Neuimplementierung der Speicherverwaltung im Serving-Framework vermieden. Wir zeigen, dass vAttention nahtlose dynamische Speicherverwaltung für unveränderte Implementierungen verschiedener Attention-Kernel ermöglicht. vAttention erzeugt zudem Tokens bis zu 1,97-mal schneller als vLLM, während es Eingabeaufforderungen bis zu 3,92-mal bzw. 1,45-mal schneller als die PagedAttention-Varianten von FlashAttention und FlashInfer verarbeitet.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ramya Prabhu

A.K. Nayak

Jayashree Mohan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

vAttention: Dynamische Speicherverwaltung für das Serving von LLMs ohne PagedAttention

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study