What question did this study set out to answer?

L'objectif est d'évaluer et d'optimiser les architectures de stockage pour une performance efficace dans les systèmes multi-GPU axés sur les grands modèles de langage.

March 28, 2026

Vers des architectures de stockage évolutives pour clusters GPU exécutant de grands modèles de langage

Key Points

L'objectif est d'évaluer et d'optimiser les architectures de stockage pour une performance efficace dans les systèmes multi-GPU axés sur les grands modèles de langage.
Réalisation d'une évaluation consciente des phases des performances du chemin des données pour les LLM à travers divers supports de stockage.
Utilisation de technologies incluant libaio, io_uring, SPDK et GDS dans une analyse systématique.
Exploration de plus de 25 000 configurations pour mesurer des métriques de performance telles que le débit et les IOPS.
io_uring a démontré la latence la plus faible et des IOPS compétitives pour des E/S aléatoires de petite taille sur NVMe durant l'inférence.
GDS a été efficace pour réduire les temps de chargement lors des charges de pré-entraînement et d'ajustement fin, dominées par des lectures et écritures séquentielles.
L'efficacité CPU est apparue comme un différenciateur critique, soulignant la nécessité d'aligner le choix du chemin des données avec la phase du pipeline LLM.

Abstract

Dans les nœuds multi-accélérateurs modernes, le débit des GPU est de plus en plus limité par des goulots d'étranglement liés au stockage et à l'E/S, laissant les accélérateurs inactifs car le transfert de données est restreint par le logiciel. Dans cette étude, nous nous concentrons sur les systèmes mono-nœud multi-GPU avec des modèles de petite à moyenne taille et présentons une évaluation systématique et consciente des phases des performances du chemin des données pour les grands modèles de langage (LLM), couvrant des technologies telles que libaio en noyau, io_uring hybride utilisateur-noyau, NVMe en espace utilisateur via le Storage Performance Development Kit (SPDK), et GPUDirect Storage (GDS). Ces approches sont évaluées sur divers supports de stockage incluant les disques SATA SSD, NVMe SSD, Optane NVMe, et la mémoire persistante Optane (PMem). En s'appuyant sur un cadre d'évaluation automatisé, nous explorons plus de 25 000 configurations, mesurant le débit, la latence, les opérations d'entrée/sortie par seconde (IOPS) et le coût CPU. Notre étude propose des scénarios de stockage pour LLM à la fois dans des benchmarks standardisés et des traces de production réelles, assurant que nos modèles de charge reflètent fidèlement les besoins en E/S lors du pré-entraînement, de l'ajustement fin et de l'inférence. Nous constatons que pour l'inférence, io_uring obtient la latence la plus faible et des IOPS compétitives pour de petits E/S aléatoires sur NVMe. En revanche, SPDK est limité à l'évaluation brute des blocs en raison de l'absence de support du système de fichiers POSIX. Pour le pré-entraînement et l'ajustement fin, les charges sont dominées par des lectures et écritures séquentielles à grain grossier, où GDS excelle en réduisant les temps de chargement et l'utilisation du CPU hôte. Parmi les chemins de données médiés par CPU, l'efficacité CPU — mesurée en GB/s par cœur — émerge comme le différenciateur clé. Pris ensemble, ces résultats produisent des lignes directrices de conception exploitables : alignez le choix du chemin des données avec la phase du pipeline LLM. Utilisez io_uring pour l'inférence afin d'optimiser l'efficacité du transfert de données et minimiser la latence, et tirez parti de GDS pour le pré-entraînement et l'ajustement fin pour améliorer le débit par cœur, réduisant ainsi l'écart entre le stockage et le calcul dans les clusters GPU LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ali Sedaghatgoo

Reza Salkhordeh

André Brinkmann

Journals

Proceedings of the ACM on Measurement and Analysis of Computing Systems

Actions

Institutions

Johannes Gutenberg University Mainz

Saarland University

Sharif University of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Sedaghatgoo et al. (jeu,) ont étudié cette question.

www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Enriching Location Representation with Detailed Semantic Information· 2024 · 350 citations
Gemma: Open Models Based on Gemini Research and Technology· 2024 · 222 citations
Qwen2.5 Technical Report· 2024 · 67 citations
Performance Characterization of NVMe Flash Devices with Zoned Namespaces (ZNS)

Vers des architectures de stockage évolutives pour clusters GPU exécutant de grands modèles de langage

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider