効率的なキー・バリュー(KV)キャッシュ圧縮は、長いシーケンスやリソース制約下でのトランスフォーマーベースの大規模言語モデル(LLM)のスケーリングにおいて極めて重要です。既存手法はトークンの位置や重要度に基づいてトークンを削除しますが、位置ベースの戦略は事前定義された領域外の重要情報を見逃しがちであり、一方でグローバルな重要度スコアに依存する手法は強い局所バイアスを生じさせ、KVキャッシュの全体的なコンテキスト保持能力を制限し、複雑なタスクにおけるLLMの性能を低下させる可能性があります。我々のウェーブレット解析は、トークンがシーケンスの終端に近づくにつれて生成への寄与が徐々に増加し、隣接するトークンからの乖離が大きくなることを示しており、遠方から近接するコンテキストへの複雑性と多様性の増加を伴うスムーズな遷移を示唆しています。この観察に基づき、我々はTreeKVを提案します。これは直感的でトレーニング不要の手法であり、スムーズなキャッシュ圧縮のためにツリー構造を採用しています。TreeKVは固定サイズのキャッシュを維持し、LLMが長文シナリオでも高品質な出力を提供可能にし、生成および事前充填の両段階で適用可能です。TreeKVはPG19およびOpenWebText2における言語モデリングタスクで全てのベースラインモデルを一貫して上回り、短いコンテキストウィンドウで訓練されたLLMが16倍のキャッシュ削減とともに長いウィンドウに一般化することを可能にします。Longbenchベンチマークでは、TreeKVは最適な効率で予算のわずか6%程度で最高の性能を達成しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Ziwei He
Jian Yuan
Haoli Bai
Shanghai Jiao Tong University
Huawei Technologies (Sweden)
Building similarity graph...
Analyzing shared references across papers
Loading...
Heら(Mon,)はこの問題を研究しました。
www.synapsesocial.com/papers/68d469d631b076d99fa66eb6 — DOI: https://doi.org/10.24963/ijcai.2025/899
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: