What type of study is this?

This is a Quantitative Study study.

September 24, 2025Open Access

Vorhersagbarer LLM-Einsatz auf GPU-Clustern

Key Points

SLO-Fehlerrate um etwa 32 % gesenkt bei gleichzeitiger Verbesserung der p99-Latenz um circa 15 %.
Dynamische Multi-Instance GPU-Konfiguration kombiniert mit PCIe-bewusster Platzierung verbessert die Leistung signifikant.
Der Controller hält die Durchsatzkosten im Vergleich zu statischen Konfigurationen unter 5 %, was seine Effizienz zeigt.
Ablationsstudien weisen darauf hin, dass sowohl MIG als auch Platzierungsstrategien effektiv und vergleichbar zu den Verbesserungen beitragen.

Abstract

Latenzempfindliche Inferenz auf gemeinsam genutzten A100-Clustern leidet häufig unter Störungen durch Nachbarn im PCIe-Netzwerk, was die Spitzenlatenz und SLO-Verletzungen erhöht. Wir stellen einen fabric-agnostischen, VM-einsetzbaren Host-Level-Controller vor, der dynamische Multi-Instance GPU (MIG)-Neukonfiguration, PCIe-bewusste Platzierung und leichte Schutzmaßnahmen (MPS-Quoten, cgroup I/O) kombiniert. Er sammelt Spitzenwerte pro Mieter und Systemsignale, nutzt Topologiehinweise zur Vermeidung von PCIe-Hotspots und steuert Aktionen mit Verzögerung/Kühlzeiten, um Überlastung zu vermeiden. Auf einem einzelnen Host und einem 2-Knoten-(16-GPU)-Cluster wird die SLO-Fehlerrate um etwa 32 % (± 1,5) reduziert und die p99-Latenz verbessert sich um circa 15 % bei einem Durchsatzverlust von 5 % im Vergleich zu statischem MIG und naiver Platzierung; Ablationsstudien zeigen, dass MIG und Platzierung ähnlich stark beitragen. Wir evaluieren auch LLM-Einsatz mit vLLM auf OLMo 2 7B Instruct: TTFT p99 verbessert sich um 10–15 % bei 5 % Kosten, ohne Änderungen am Controller.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Erfan Darzi

Shreeanant Bharadwaj

Sree Bhargavi Balija

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Vorhersagbarer LLM-Einsatz auf GPU-Clustern

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider