Moderne LLM-Dienste erfordern hohe Durchsatzraten und strenge SLO-Garantien über zwei unterschiedliche Inferenzphasen – Prefill und Decode – sowie komplexe Multi-Turn-Workflows. Aktuelle Systeme stehen jedoch vor einem grundlegenden Kompromiss: Compute-Partition außerhalb des Speicherbereichs ermöglicht die Einhaltung von SLOs pro Phase, während gemeinsames Speicher-Sharing vor Ort den Durchsatz durch Wiederverwendung des KV-Caches maximiert. Darüber hinaus leidet die derzeitige Compute-Partition vor Ort ebenfalls unter geringer Auslastung und hohem Overhead aufgrund des phasengekoppelten Designs. Wir stellen Drift vor, ein neues LLM-Serving-Framework, das dieses Spannungsfeld mittels PD-Multiplexing löst und eine Compute-Partition vor Ort und phasengentkoppelt ermöglicht. Drift nutzt niedrigstufige GPU-Partitionierungstechniken, um die Prefill- und Decode-Phasen räumlich und adaptiv auf gemeinsamen GPUs zu multiplexen und gleichzeitig das gemeinsame Speicher-Sharing vor Ort beizubehalten. Um das Multiplexing-Potenzial voll auszuschöpfen, führt Drift einen adaptiven Gang-Scheduling-Mechanismus, eine kontentionsfreie Modellierungsmethode und eine SLO-bewusste Dispatching-Policy ein. Die Evaluierung zeigt, dass Drift im Durchschnitt eine 5,1-fache Steigerung des Durchsatzes (bis zu 17,5-fach) gegenüber modernsten Referenzsystemen erzielt und dabei unter komplexen LLM-Workloads kontinuierlich die SLO-Ziele erfüllt.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenwen Cui
Y. Chen
Han Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
Cui et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68dd91c7fe798ba2fc49832c — DOI: https://doi.org/10.48550/arxiv.2504.14489
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: