May 31, 2024Open Access

LCQ: Low-Rank-Codebook-basierte Quantisierung für große Sprachmodelle

Key Points

Key points are not available for this paper at this time.

Abstract

Große Sprachmodelle~(LLMs) haben kürzlich vielversprechende Leistungen in vielen Aufgaben gezeigt. Allerdings sind die hohen Speicher- und Rechenkosten der LLMs eine Herausforderung für deren Einsatz. Gewichtquantisierung wird häufig zur Modellkompression verwendet, da sie sowohl Speicher- als auch Rechenkosten reduzieren kann. Die meisten existierenden Gewichtquantisierungsmethoden für LLMs nutzen einen Rang-eins-Codebook für die Quantisierung, was zu erheblichen Genauigkeitsverlusten führt, wenn das Kompressionsverhältnis hoch ist. In dieser Arbeit schlagen wir eine neuartige Gewichtquantisierungsmethode namens Low-Rank-Codebook-basierte Quantisierung~(LCQ) für LLMs vor. LCQ verwendet ein Low-Rank-Codebook, dessen Rang größer als eins sein kann, für die Quantisierung. Experimente zeigen, dass LCQ bessere Genauigkeit als bestehende Methoden mit vernachlässigbar erhöhtem Speicherbedarf erreichen kann.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wen-Pu Cai

Wujun Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LCQ: Low-Rank-Codebook-basierte Quantisierung für große Sprachmodelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider