Dans les nœuds multi-accélérateurs modernes, le débit des GPU est de plus en plus limité par des goulots d'étranglement liés au stockage et à l'E/S, laissant les accélérateurs inactifs car le transfert de données est restreint par le logiciel. Dans cette étude, nous nous concentrons sur les systèmes mono-nœud multi-GPU avec des modèles de petite à moyenne taille et présentons une évaluation systématique et consciente des phases des performances du chemin des données pour les grands modèles de langage (LLM), couvrant des technologies telles que libaio en noyau, io_uring hybride utilisateur-noyau, NVMe en espace utilisateur via le Storage Performance Development Kit (SPDK), et GPUDirect Storage (GDS). Ces approches sont évaluées sur divers supports de stockage incluant les disques SATA SSD, NVMe SSD, Optane NVMe, et la mémoire persistante Optane (PMem). En s'appuyant sur un cadre d'évaluation automatisé, nous explorons plus de 25 000 configurations, mesurant le débit, la latence, les opérations d'entrée/sortie par seconde (IOPS) et le coût CPU. Notre étude propose des scénarios de stockage pour LLM à la fois dans des benchmarks standardisés et des traces de production réelles, assurant que nos modèles de charge reflètent fidèlement les besoins en E/S lors du pré-entraînement, de l'ajustement fin et de l'inférence. Nous constatons que pour l'inférence, io_uring obtient la latence la plus faible et des IOPS compétitives pour de petits E/S aléatoires sur NVMe. En revanche, SPDK est limité à l'évaluation brute des blocs en raison de l'absence de support du système de fichiers POSIX. Pour le pré-entraînement et l'ajustement fin, les charges sont dominées par des lectures et écritures séquentielles à grain grossier, où GDS excelle en réduisant les temps de chargement et l'utilisation du CPU hôte. Parmi les chemins de données médiés par CPU, l'efficacité CPU — mesurée en GB/s par cœur — émerge comme le différenciateur clé. Pris ensemble, ces résultats produisent des lignes directrices de conception exploitables : alignez le choix du chemin des données avec la phase du pipeline LLM. Utilisez io_uring pour l'inférence afin d'optimiser l'efficacité du transfert de données et minimiser la latence, et tirez parti de GDS pour le pré-entraînement et l'ajustement fin pour améliorer le débit par cœur, réduisant ainsi l'écart entre le stockage et le calcul dans les clusters GPU LLM.
Building similarity graph...
Analyzing shared references across papers
Ali Sedaghatgoo
Reza Salkhordeh
André Brinkmann
Proceedings of the ACM on Measurement and Analysis of Computing Systems
Johannes Gutenberg University Mainz
Saarland University
Sharif University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sedaghatgoo et al. (jeu,) ont étudié cette question.
www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: