What type of study is this?

This is a Experimental Study study.

October 1, 2025Open Access

PD多重化によるSLO指向LLMサービスの最適化

Key Points

Driftは厳格なSLO目標を達成しつつ平均5.1倍のスループット向上を達成します。
本フレームワークは高度なGPUパーティショニング技術を活用し、プレフィルおよびデコードフェーズを最適化します。
独自のギャングスケジューリング機構とディスパッチポリシーにより、マルチターンワークフローでの性能を強化します。
Driftは効果的な場所以内メモリ共有と計算分割を可能にし、LLMサービングにおけるトレードオフを解決します。

Abstract

現代のLLMサービスは、高スループットと2つの異なる推論フェーズであるプレフィル及びデコード、さらに複雑なマルチターンワークフローにおける厳格なSLO保証を要求します。しかし、現行システムは根本的なトレードオフに直面しています。すなわち、フェーズ別SLO達成を可能にする場所以外の計算分割と、KVキャッシュ再利用によるスループット最大化を実現する場所以内メモリ共有です。加えて、既存の場所以内計算分割は、フェーズカップリング設計により低利用率と高オーバーヘッドを引き起こしています。我々はDriftという新しいLLMサービングフレームワークを提案し、PD多重化によりこの緊張を解消し、場所以内かつフェーズ独立の計算分割を可能にします。Driftは低レベルGPUパーティショニング技術を活用し、共有GPU上でプレフィルとデコードフェーズを空間的かつ適応的に多重化しつつ、場所以内メモリ共有を維持します。多重化能力を最大限に活用するために、Driftは適応型ギャングスケジューリング機構、競合のないモデリング手法、SLO対応のディスパッチポリシーを導入します。評価では、Driftは最先端ベースラインに対して平均5.1倍（最大17.5倍）のスループット向上を実現し、複雑なLLMワークロード下でも一貫してSLO目標を達成することが示されました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenwen Cui

Y. Chen

Han Zhao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

PD多重化によるSLO指向LLMサービスの最適化

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider