What type of study is this?

This is a Experimental Study study.

September 20, 2025

TreeKV：ツリー構造によるスムーズなキー・バリューキャッシュ圧縮

Key Points

TreeKVは長いシーケンス生成において性能を大幅に向上させ、より高品質な出力を達成します。
本モデルはキャッシュサイズを16分の1に削減しつつ、言語タスクにおいて高いコンテキスト保持を維持します。
ツリー構造を採用することで、TreeKVは訓練調整を必要としないスムーズなキャッシュ圧縮を提供します。
複数のベンチマークにおいて性能検証が行われ、TreeKVは全てのベースラインモデルを大幅に上回りました。

Abstract

効率的なキー・バリュー（KV）キャッシュ圧縮は、長いシーケンスやリソース制約下でのトランスフォーマーベースの大規模言語モデル（LLM）のスケーリングにおいて極めて重要です。既存手法はトークンの位置や重要度に基づいてトークンを削除しますが、位置ベースの戦略は事前定義された領域外の重要情報を見逃しがちであり、一方でグローバルな重要度スコアに依存する手法は強い局所バイアスを生じさせ、KVキャッシュの全体的なコンテキスト保持能力を制限し、複雑なタスクにおけるLLMの性能を低下させる可能性があります。我々のウェーブレット解析は、トークンがシーケンスの終端に近づくにつれて生成への寄与が徐々に増加し、隣接するトークンからの乖離が大きくなることを示しており、遠方から近接するコンテキストへの複雑性と多様性の増加を伴うスムーズな遷移を示唆しています。この観察に基づき、我々はTreeKVを提案します。これは直感的でトレーニング不要の手法であり、スムーズなキャッシュ圧縮のためにツリー構造を採用しています。TreeKVは固定サイズのキャッシュを維持し、LLMが長文シナリオでも高品質な出力を提供可能にし、生成および事前充填の両段階で適用可能です。TreeKVはPG19およびOpenWebText2における言語モデリングタスクで全てのベースラインモデルを一貫して上回り、短いコンテキストウィンドウで訓練されたLLMが16倍のキャッシュ削減とともに長いウィンドウに一般化することを可能にします。Longbenchベンチマークでは、TreeKVは最適な効率で予算のわずか6％程度で最高の性能を達成しました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ziwei He

Jian Yuan

Haoli Bai

Actions

Institutions

Shanghai Jiao Tong University

Huawei Technologies (Sweden)

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

TreeKV：ツリー構造によるスムーズなキー・バリューキャッシュ圧縮

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider