February 20, 2024

POSTER: LLM-PQ: Bereitstellung von LLM auf heterogenen Clustern mit phasenbewusster Partition und adaptiver Quantisierung

Key Points

Key points are not available for this paper at this time.

Abstract

Die enormen Größen von Large-scale Language Models (LLMs) führen zu hohem Ressourcenbedarf und erheblichen Kosten für den Betrieb der Modelle. Obwohl die Modelle heutzutage überwiegend auf einheitlichen GPUs hoher Leistung bereitgestellt werden, kann die Nutzung eines heterogenen Clusters mit einer Mischung verfügbarer GPUs mit hoher und geringer Kapazität potenziell die Bereitstellungskosten erheblich senken. Dieses Papier stellt LLM-PQ vor, ein System, das adaptive Modellquantisierung und phasenbewusste Partition empfiehlt, um die Effizienz der LLM-Bereitstellung auf heterogenen GPU-Clustern zu verbessern. Umfangreiche Experimente mit produktionsnahen Inferenz-Workloads zeigen eine Steigerung des Durchsatzes bei der Inferenz und demonstrieren deutliche Vorteile gegenüber dem Stand der Technik.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Juntao Zhao

Borui Wan

Chuan Wu

Actions

Institutions

University of Hong Kong

Chinese University of Hong Kong

Seattle University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

POSTER: LLM-PQ: Bereitstellung von LLM auf heterogenen Clustern mit phasenbewusster Partition und adaptiver Quantisierung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study