What question did this study set out to answer?

大規模言語モデルに焦点を当てたマルチGPUシステムの効率的な性能のためにストレージアーキテクチャを評価し最適化することを目的としています。

March 28, 2026

大規模言語モデルを実行するGPUクラスタ向けスケーラブルストレージアーキテクチャへの展望

Key Points

大規模言語モデルに焦点を当てたマルチGPUシステムの効率的な性能のためにストレージアーキテクチャを評価し最適化することを目的としています。
様々なストレージメディアにわたりLLMのデータパス性能をフェーズ認識的に評価しました。
libaio、io_uring、SPDK、GDSを含む技術を系統的に分析に利用しました。
25,000を超える構成を探索し、スループットやIOPSなどの性能指標を測定しました。
推論時にio_uringはNVMe上の小規模ランダムI/Oで最も低いレイテンシと競合するIOPSを示しました。
前処理学習と微調整の順次読み書き中心のワークロードにおいて、GDSはロード時間の短縮に効果的でした。
CPU効率が重要な差別化要素として浮上し、LLMパイプラインフェーズごとのデータパス選択の整合が必要であることを強調します。

Abstract

現代のマルチアクセラレータノードでは、GPUのスループットはストレージおよびI/Oのボトルネックによって制約されており、データ転送がソフトウェアによって制限されることでアクセラレータがアイドル状態になります。本研究では単一ノードのマルチGPUシステムに焦点を当て、小規模から中規模のモデルに対して、大規模言語モデル（LLM）のデータパス性能を系統的かつフェーズ認識的に評価し、in-kernel libaio、ハイブリッドユーザカーネルio_uring、Storage Performance Development Kit（SPDK）を介したユーザスペースNVMe、及びGPUDirect Storage（GDS）といった技術を対象としました。これらの手法はSATA SSD、NVMe SSD、Optane NVMe、Optane Persistent Memory（PMem）など様々なストレージメディアで評価されました。自動評価フレームワークを活用し、25,000以上の構成を探索し、スループット、レイテンシ、I/O毎秒（IOPS）、CPUコストを測定しました。我々の研究は標準化ベンチマークと実際のプロダクショントレースの両方でLLMストレージシナリオを提供し、前処理学習（pre-training）、微調整（fine-tuning）、推論（inference）全体にわたるI/O需要を正確に反映するワークロードモデルを保証しています。推論においては、io_uringがNVMe上の小規模ランダムI/Oで最も低いレイテンシと競争力のあるIOPSを達成しました。一方、SPDKはPOSIXファイルシステムのサポート欠如により生のブロックデバイス評価に限定されます。前処理学習と微調整では、大まかな順次読み書きが支配的であり、その負荷時間とホストCPU使用率の削減にGDSが優れています。CPU経由のデータパスの中では、コアごとのGB/sで表されるCPU効率が重要な差異化要素として浮上しました。これらの結果を踏まえ、実践的な設計指針が導かれます：LLMパイプラインのフェーズに応じてデータパスの選択を整合させること。推論にはio_uringを用いてデータ転送効率を最適化し、レイテンシを最小化し、前処理学習と微調整にはGDSを活用してコアあたりのスループットを改善し、GPU LLMクラスタにおけるストレージと計算のギャップを狭めます。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ali Sedaghatgoo

Reza Salkhordeh

André Brinkmann

Journals

Proceedings of the ACM on Measurement and Analysis of Computing Systems

Actions

Institutions

Johannes Gutenberg University Mainz

Saarland University

Sharif University of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Sedaghatgooら（Thu,）はこの問題を研究しました。

www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Enriching Location Representation with Detailed Semantic Information· 2024 · 350 citations
Gemma: Open Models Based on Gemini Research and Technology· 2024 · 222 citations
Qwen2.5 Technical Report· 2024 · 67 citations
Performance Characterization of NVMe Flash Devices with Zoned Namespaces (ZNS)

大規模言語モデルを実行するGPUクラスタ向けスケーラブルストレージアーキテクチャへの展望

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider