Große Sprachmodelle (LLMs) werden zunehmend in Anwendungen eingesetzt, die Multi-Anfrage-Workflows bilden, wie Dokumentenzusammenfassung, suchbasierte Co-Piloten und Multi-Agenten-Programmierung. Während diese Workflows reichhaltigere Funktionalität ermöglichen, verstärken sie auch Latenzzeiten und Energiebedarf während der Inferenzen. Bestehende Mess- und Benchmarking-Bemühungen konzentrieren sich entweder auf die Bewertung der Leistungsfähigkeit von LLM-Inferenzsystemen oder betrachten Einzelanfrage-Bewertungen und übersehen dabei Workflow-Abhängigkeiten und Interaktionen zwischen Anfragen, die für Multi-Anfrage-Workflows einzigartig sind. Darüber hinaus wird der Energieverbrauch solcher voneinander abhängigen LLM-Aufrufe nicht eingehend untersucht. Um diese Lücken zu schließen, stellt dieses Paper die erste systematische Charakterisierung der Leistungs-Energie-Kompromisse bei Multi-Anfrage-LLM-Inferenzen vor. Wir entwickeln und bewerten vier repräsentative Workloads, die sequentielle, interaktive, agentenbasierte und zusammengesetzte Muster erfassen, die in modernen Einsätzen üblich sind. Anhand eines empirischen NVIDIA A100 Testbeds mit modernen Serving-Systemen (vLLM und Parrot) analysieren wir systematisch, wie entscheidende Energieparameter (z.B. Eingabe-Ausgabe-Länge, Batchgröße und GPU-Leistungsbegrenzung) Latenz, Durchsatz und energiebezogene Komponenten auf CPU-, GPU- und DRAM-Ebene beeinflussen. Unsere Ergebnisse zeigen, dass die Batchgröße der einflussreichste Faktor ist, wobei ihre Vorteile stark vom Workload abhängen. Während optimales Batching Workloads mit großen gemeinsamen Prompts zugutekommt, ist es für sequentielle Zusammenfassungen ineffektiv und bei Multi-Agenten-Codierung nur teilweise wirksam. GPU-Leistungsbegrenzung bringt moderate, aber vorhersehbare Einsparungen, während die Ausgabelänge eine lineare Energieerhöhung mit begrenzten Effizienzgewinnen verursacht. Wir demonstrieren weiterhin, dass engine-spezifische Optimierungen in vLLM (z.B. kontinuierliches Batching, PagedAttention) eine höhere GPU-Auslastung und Effizienz aufrechterhalten, insbesondere bei decode-intensiven Workloads, während Parrots workflowbewusstes Scheduling unter strengen Leistungsgrenzen zu geringeren Energieverbräuchen führt. Diese Erkenntnisse bieten umsetzbare Richtlinien für Entwickler und Systembetreiber bei der Gestaltung leistungs- und energieeffizienter LLM-Serving-Systeme für aufkommende Multi-Anfrage-Workflows.
Building similarity graph...
Analyzing shared references across papers
Loading...
Md. Monzurul Amin Ifath
Israat Haque
Proceedings of the ACM on Measurement and Analysis of Computing Systems
Dalhousie University
Building similarity graph...
Analyzing shared references across papers
Loading...
Ifath et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/69c7724e8bbfbc51511e2a2a — DOI: https://doi.org/10.1145/3788089
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: