Key points are not available for this paper at this time.
Die enormen Größen von Large-scale Language Models (LLMs) führen zu hohem Ressourcenbedarf und erheblichen Kosten für den Betrieb der Modelle. Obwohl die Modelle heutzutage überwiegend auf einheitlichen GPUs hoher Leistung bereitgestellt werden, kann die Nutzung eines heterogenen Clusters mit einer Mischung verfügbarer GPUs mit hoher und geringer Kapazität potenziell die Bereitstellungskosten erheblich senken. Dieses Papier stellt LLM-PQ vor, ein System, das adaptive Modellquantisierung und phasenbewusste Partition empfiehlt, um die Effizienz der LLM-Bereitstellung auf heterogenen GPU-Clustern zu verbessern. Umfangreiche Experimente mit produktionsnahen Inferenz-Workloads zeigen eine Steigerung des Durchsatzes bei der Inferenz und demonstrieren deutliche Vorteile gegenüber dem Stand der Technik.
Building similarity graph...
Analyzing shared references across papers
Loading...
Juntao Zhao
Borui Wan
Chuan Wu
University of Hong Kong
Chinese University of Hong Kong
Seattle University
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Di,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e786ffb6db6435876f9b4b — DOI: https://doi.org/10.1145/3627535.3638480