Key points are not available for this paper at this time.
LLMの提供には、シーケンス長に応じて増加するKVキャッシュ内のKey-Value(KV)埋め込みの保存要件のために大量のメモリが必要です。KVキャッシュを圧縮する効果的な方法は量子化です。しかし、従来の量子化法は、データブロックごとに(少なくともゼロポイントとスケールの)量子化定数をフル精度で保存する必要があるため、著しいメモリオーバーヘッドが生じます。ブロックサイズによっては、このオーバーヘッドは量子化された数値あたり1または2ビットに及ぶことがあります。我々は、Johnson-Lindenstrauss(JL)変換に続く符号ビット量子化からなる新しい量子化アプローチQJLを紹介します。既存の方法とは異なり、QJLは量子化定数の保存を不要にすることでメモリオーバーヘッドを排除します。内積のための非対称推定器を提案し、片方のベクトルにQJL、もう片方に非量子化の標準JL変換を適用することで、偏りのない推定と最小限の歪みを実現することを示しました。効率的なQJLスケッチと対応する内積推定器の実装を開発し、最適化計算のための軽量CUDAカーネルを組み込みました。複数のLLMとNLPタスクでKVキャッシュを3ビットに量子化する際、QJLは精度を損なわずKVキャッシュメモリ使用量を5倍以上削減し、さらに高速な実行時間を達成しました。コードはhttps://github.com/amirzandieh/QJLで入手可能です。
Building similarity graph...
Analyzing shared references across papers
Loading...
Amir Zandieh
Majid Daliri
In‐Su Han
Building similarity graph...
Analyzing shared references across papers
Loading...
Zandiehら(Wed,)がこの問題を研究しました。
www.synapsesocial.com/papers/68e660e5b6db6435875ef4d0 — DOI: https://doi.org/10.48550/arxiv.2406.03482
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: