現代のLLMサービスは、高スループットと2つの異なる推論フェーズであるプレフィル及びデコード、さらに複雑なマルチターンワークフローにおける厳格なSLO保証を要求します。しかし、現行システムは根本的なトレードオフに直面しています。すなわち、フェーズ別SLO達成を可能にする場所以外の計算分割と、KVキャッシュ再利用によるスループット最大化を実現する場所以内メモリ共有です。加えて、既存の場所以内計算分割は、フェーズカップリング設計により低利用率と高オーバーヘッドを引き起こしています。我々はDriftという新しいLLMサービングフレームワークを提案し、PD多重化によりこの緊張を解消し、場所以内かつフェーズ独立の計算分割を可能にします。Driftは低レベルGPUパーティショニング技術を活用し、共有GPU上でプレフィルとデコードフェーズを空間的かつ適応的に多重化しつつ、場所以内メモリ共有を維持します。多重化能力を最大限に活用するために、Driftは適応型ギャングスケジューリング機構、競合のないモデリング手法、SLO対応のディスパッチポリシーを導入します。評価では、Driftは最先端ベースラインに対して平均5.1倍(最大17.5倍)のスループット向上を実現し、複雑なLLMワークロード下でも一貫してSLO目標を達成することが示されました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenwen Cui
Y. Chen
Han Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
Cuiら(Sun,)はこの問題を研究しました。
www.synapsesocial.com/papers/68dd91c7fe798ba2fc49832c — DOI: https://doi.org/10.48550/arxiv.2504.14489
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: