現代のマルチアクセラレータノードでは、GPUのスループットはストレージおよびI/Oのボトルネックによって制約されており、データ転送がソフトウェアによって制限されることでアクセラレータがアイドル状態になります。本研究では単一ノードのマルチGPUシステムに焦点を当て、小規模から中規模のモデルに対して、大規模言語モデル(LLM)のデータパス性能を系統的かつフェーズ認識的に評価し、in-kernel libaio、ハイブリッドユーザカーネルio_uring、Storage Performance Development Kit(SPDK)を介したユーザスペースNVMe、及びGPUDirect Storage(GDS)といった技術を対象としました。これらの手法はSATA SSD、NVMe SSD、Optane NVMe、Optane Persistent Memory(PMem)など様々なストレージメディアで評価されました。自動評価フレームワークを活用し、25,000以上の構成を探索し、スループット、レイテンシ、I/O毎秒(IOPS)、CPUコストを測定しました。我々の研究は標準化ベンチマークと実際のプロダクショントレースの両方でLLMストレージシナリオを提供し、前処理学習(pre-training)、微調整(fine-tuning)、推論(inference)全体にわたるI/O需要を正確に反映するワークロードモデルを保証しています。推論においては、io_uringがNVMe上の小規模ランダムI/Oで最も低いレイテンシと競争力のあるIOPSを達成しました。一方、SPDKはPOSIXファイルシステムのサポート欠如により生のブロックデバイス評価に限定されます。前処理学習と微調整では、大まかな順次読み書きが支配的であり、その負荷時間とホストCPU使用率の削減にGDSが優れています。CPU経由のデータパスの中では、コアごとのGB/sで表されるCPU効率が重要な差異化要素として浮上しました。これらの結果を踏まえ、実践的な設計指針が導かれます:LLMパイプラインのフェーズに応じてデータパスの選択を整合させること。推論にはio_uringを用いてデータ転送効率を最適化し、レイテンシを最小化し、前処理学習と微調整にはGDSを活用してコアあたりのスループットを改善し、GPU LLMクラスタにおけるストレージと計算のギャップを狭めます。
Building similarity graph...
Analyzing shared references across papers
Ali Sedaghatgoo
Reza Salkhordeh
André Brinkmann
Proceedings of the ACM on Measurement and Analysis of Computing Systems
Johannes Gutenberg University Mainz
Saarland University
Sharif University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sedaghatgooら(Thu,)はこの問題を研究しました。
www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: