Key points are not available for this paper at this time.
Große Sprachmodelle~(LLMs) haben kürzlich vielversprechende Leistungen in vielen Aufgaben gezeigt. Allerdings sind die hohen Speicher- und Rechenkosten der LLMs eine Herausforderung für deren Einsatz. Gewichtquantisierung wird häufig zur Modellkompression verwendet, da sie sowohl Speicher- als auch Rechenkosten reduzieren kann. Die meisten existierenden Gewichtquantisierungsmethoden für LLMs nutzen einen Rang-eins-Codebook für die Quantisierung, was zu erheblichen Genauigkeitsverlusten führt, wenn das Kompressionsverhältnis hoch ist. In dieser Arbeit schlagen wir eine neuartige Gewichtquantisierungsmethode namens Low-Rank-Codebook-basierte Quantisierung~(LCQ) für LLMs vor. LCQ verwendet ein Low-Rank-Codebook, dessen Rang größer als eins sein kann, für die Quantisierung. Experimente zeigen, dass LCQ bessere Genauigkeit als bestehende Methoden mit vernachlässigbar erhöhtem Speicherbedarf erreichen kann.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wen-Pu Cai
Wujun Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai et al. (Fr,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e6785bb6db643587602a68 — DOI: https://doi.org/10.48550/arxiv.2405.20973
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: