What type of study is this?

This is a Experimental Study study.

October 1, 2025Open Access

Optimierung des SLO-orientierten LLM-Servings mit PD-Multiplexing

Key Points

Drift erzielt eine durchschnittliche 5,1-fache Verbesserung des Durchsatzes bei gleichzeitiger Einhaltung strenger SLO-Ziele.
Das Framework nutzt fortgeschrittene GPU-Partitionierungstechniken zur Optimierung der Prefill- und Decode-Phasen.
Ein einzigartiger Gang-Scheduling-Mechanismus und eine Dispatching-Policy verbessern die Leistung bei Multi-Turn-Workflows.
Drift löst Kompromisse im LLM-Serving durch effektives gemeinsames Speicher-Sharing vor Ort und Compute-Partitionierung.

Abstract

Moderne LLM-Dienste erfordern hohe Durchsatzraten und strenge SLO-Garantien über zwei unterschiedliche Inferenzphasen – Prefill und Decode – sowie komplexe Multi-Turn-Workflows. Aktuelle Systeme stehen jedoch vor einem grundlegenden Kompromiss: Compute-Partition außerhalb des Speicherbereichs ermöglicht die Einhaltung von SLOs pro Phase, während gemeinsames Speicher-Sharing vor Ort den Durchsatz durch Wiederverwendung des KV-Caches maximiert. Darüber hinaus leidet die derzeitige Compute-Partition vor Ort ebenfalls unter geringer Auslastung und hohem Overhead aufgrund des phasengekoppelten Designs. Wir stellen Drift vor, ein neues LLM-Serving-Framework, das dieses Spannungsfeld mittels PD-Multiplexing löst und eine Compute-Partition vor Ort und phasengentkoppelt ermöglicht. Drift nutzt niedrigstufige GPU-Partitionierungstechniken, um die Prefill- und Decode-Phasen räumlich und adaptiv auf gemeinsamen GPUs zu multiplexen und gleichzeitig das gemeinsame Speicher-Sharing vor Ort beizubehalten. Um das Multiplexing-Potenzial voll auszuschöpfen, führt Drift einen adaptiven Gang-Scheduling-Mechanismus, eine kontentionsfreie Modellierungsmethode und eine SLO-bewusste Dispatching-Policy ein. Die Evaluierung zeigt, dass Drift im Durchschnitt eine 5,1-fache Steigerung des Durchsatzes (bis zu 17,5-fach) gegenüber modernsten Referenzsystemen erzielt und dabei unter komplexen LLM-Workloads kontinuierlich die SLO-Ziele erfüllt.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenwen Cui

Y. Chen

Han Zhao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Optimierung des SLO-orientierten LLM-Servings mit PD-Multiplexing

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider