June 5, 2024Open Access

QJL: KVキャッシュ量子化のためのゼロオーバーヘッド1ビット量子化JL変換

Key Points

Key points are not available for this paper at this time.

Abstract

LLMの提供には、シーケンス長に応じて増加するKVキャッシュ内のKey-Value（KV）埋め込みの保存要件のために大量のメモリが必要です。KVキャッシュを圧縮する効果的な方法は量子化です。しかし、従来の量子化法は、データブロックごとに（少なくともゼロポイントとスケールの）量子化定数をフル精度で保存する必要があるため、著しいメモリオーバーヘッドが生じます。ブロックサイズによっては、このオーバーヘッドは量子化された数値あたり1または2ビットに及ぶことがあります。我々は、Johnson-Lindenstrauss（JL）変換に続く符号ビット量子化からなる新しい量子化アプローチQJLを紹介します。既存の方法とは異なり、QJLは量子化定数の保存を不要にすることでメモリオーバーヘッドを排除します。内積のための非対称推定器を提案し、片方のベクトルにQJL、もう片方に非量子化の標準JL変換を適用することで、偏りのない推定と最小限の歪みを実現することを示しました。効率的なQJLスケッチと対応する内積推定器の実装を開発し、最適化計算のための軽量CUDAカーネルを組み込みました。複数のLLMとNLPタスクでKVキャッシュを3ビットに量子化する際、QJLは精度を損なわずKVキャッシュメモリ使用量を5倍以上削減し、さらに高速な実行時間を達成しました。コードはhttps://github.com/amirzandieh/QJLで入手可能です。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Amir Zandieh

Majid Daliri

In‐Su Han

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

QJL: KVキャッシュ量子化のためのゼロオーバーヘッド1ビット量子化JL変換

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider