What question did this study set out to answer?

Ziel ist es, die Leistungs-Energie-Kompromisse bei Inferenz großer Sprachmodelle in Multi-Anfrage-Workflows systematisch zu analysieren.

March 28, 2026

Charakterisierung von Leistungs-Energie-Kompromissen großer Sprachmodelle in Multi-Anfrage-Workflows

Key Points

Ziel ist es, die Leistungs-Energie-Kompromisse bei Inferenz großer Sprachmodelle in Multi-Anfrage-Workflows systematisch zu analysieren.
Charakterisierung von vier repräsentativen Workloads: sequentiell, interaktiv, agentenbasiert und zusammengesetzt.
Verwendung eines empirischen NVIDIA A100-Testbeds mit Serving-Systemen wie vLLM und Parrot.
Analyse entscheidender Energieparameter einschließlich Eingabe-Ausgabe-Länge, Batchgröße und GPU-Leistungsbegrenzung.
Die Batchgröße beeinflusst die Leistung deutlich, ist jedoch vom Typ des Workloads abhängig.
GPU-Leistungsbegrenzung führt zu moderaten Energieeinsparungen.
Die Ausgabelänge erhöht den Energieverbrauch linear, mit begrenzten Effizienzvorteilen.

Abstract

Große Sprachmodelle (LLMs) werden zunehmend in Anwendungen eingesetzt, die Multi-Anfrage-Workflows bilden, wie Dokumentenzusammenfassung, suchbasierte Co-Piloten und Multi-Agenten-Programmierung. Während diese Workflows reichhaltigere Funktionalität ermöglichen, verstärken sie auch Latenzzeiten und Energiebedarf während der Inferenzen. Bestehende Mess- und Benchmarking-Bemühungen konzentrieren sich entweder auf die Bewertung der Leistungsfähigkeit von LLM-Inferenzsystemen oder betrachten Einzelanfrage-Bewertungen und übersehen dabei Workflow-Abhängigkeiten und Interaktionen zwischen Anfragen, die für Multi-Anfrage-Workflows einzigartig sind. Darüber hinaus wird der Energieverbrauch solcher voneinander abhängigen LLM-Aufrufe nicht eingehend untersucht. Um diese Lücken zu schließen, stellt dieses Paper die erste systematische Charakterisierung der Leistungs-Energie-Kompromisse bei Multi-Anfrage-LLM-Inferenzen vor. Wir entwickeln und bewerten vier repräsentative Workloads, die sequentielle, interaktive, agentenbasierte und zusammengesetzte Muster erfassen, die in modernen Einsätzen üblich sind. Anhand eines empirischen NVIDIA A100 Testbeds mit modernen Serving-Systemen (vLLM und Parrot) analysieren wir systematisch, wie entscheidende Energieparameter (z.B. Eingabe-Ausgabe-Länge, Batchgröße und GPU-Leistungsbegrenzung) Latenz, Durchsatz und energiebezogene Komponenten auf CPU-, GPU- und DRAM-Ebene beeinflussen. Unsere Ergebnisse zeigen, dass die Batchgröße der einflussreichste Faktor ist, wobei ihre Vorteile stark vom Workload abhängen. Während optimales Batching Workloads mit großen gemeinsamen Prompts zugutekommt, ist es für sequentielle Zusammenfassungen ineffektiv und bei Multi-Agenten-Codierung nur teilweise wirksam. GPU-Leistungsbegrenzung bringt moderate, aber vorhersehbare Einsparungen, während die Ausgabelänge eine lineare Energieerhöhung mit begrenzten Effizienzgewinnen verursacht. Wir demonstrieren weiterhin, dass engine-spezifische Optimierungen in vLLM (z.B. kontinuierliches Batching, PagedAttention) eine höhere GPU-Auslastung und Effizienz aufrechterhalten, insbesondere bei decode-intensiven Workloads, während Parrots workflowbewusstes Scheduling unter strengen Leistungsgrenzen zu geringeren Energieverbräuchen führt. Diese Erkenntnisse bieten umsetzbare Richtlinien für Entwickler und Systembetreiber bei der Gestaltung leistungs- und energieeffizienter LLM-Serving-Systeme für aufkommende Multi-Anfrage-Workflows.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Md. Monzurul Amin Ifath

Israat Haque

Journals

Proceedings of the ACM on Measurement and Analysis of Computing Systems

Actions

Institutions

Dalhousie University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Charakterisierung von Leistungs-Energie-Kompromissen großer Sprachmodelle in Multi-Anfrage-Workflows

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider