Latenzempfindliche Inferenz auf gemeinsam genutzten A100-Clustern leidet häufig unter Störungen durch Nachbarn im PCIe-Netzwerk, was die Spitzenlatenz und SLO-Verletzungen erhöht. Wir stellen einen fabric-agnostischen, VM-einsetzbaren Host-Level-Controller vor, der dynamische Multi-Instance GPU (MIG)-Neukonfiguration, PCIe-bewusste Platzierung und leichte Schutzmaßnahmen (MPS-Quoten, cgroup I/O) kombiniert. Er sammelt Spitzenwerte pro Mieter und Systemsignale, nutzt Topologiehinweise zur Vermeidung von PCIe-Hotspots und steuert Aktionen mit Verzögerung/Kühlzeiten, um Überlastung zu vermeiden. Auf einem einzelnen Host und einem 2-Knoten-(16-GPU)-Cluster wird die SLO-Fehlerrate um etwa 32 % (± 1,5) reduziert und die p99-Latenz verbessert sich um circa 15 % bei einem Durchsatzverlust von 5 % im Vergleich zu statischem MIG und naiver Platzierung; Ablationsstudien zeigen, dass MIG und Platzierung ähnlich stark beitragen. Wir evaluieren auch LLM-Einsatz mit vLLM auf OLMo 2 7B Instruct: TTFT p99 verbessert sich um 10–15 % bei 5 % Kosten, ohne Änderungen am Controller.
Building similarity graph...
Analyzing shared references across papers
Loading...
Erfan Darzi
Shreeanant Bharadwaj
Sree Bhargavi Balija
Building similarity graph...
Analyzing shared references across papers
Loading...
Darzi et al. (Mittwoch,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68d6d8978b2b6861e4c3ed0b — DOI: https://doi.org/10.48550/arxiv.2508.20274
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: