En nodos modernos con múltiples aceleradores, el rendimiento de la GPU está cada vez más limitado por cuellos de botella en el almacenamiento y la E/S, dejando los aceleradores inactivos mientras la transferencia de datos está restringida por el software. En este estudio, nos centramos en sistemas de un solo nodo con múltiples GPUs y modelos de tamaño pequeño a mediano, y presentamos una evaluación sistemática y consciente de fases del rendimiento del camino de datos para Grandes Modelos de Lenguaje (LLMs), abarcando tecnologías como libaio en kernel, io_uring híbrido usuario-kernel, NVMe en espacio de usuario mediante el Storage Performance Development Kit (SPDK) y GPUDirect Storage (GDS). Estos enfoques se evalúan en diversos medios de almacenamiento, incluyendo unidades de estado sólido SATA (SSD), NVMe SSD, NVMe Optane y Memoria Persistente Optane (PMem). Aprovechando un marco de evaluación automatizado, exploramos más de 25,000 configuraciones, midiendo rendimiento, latencia, operaciones de entrada/salida por segundo (IOPS) y costo de CPU. Nuestro estudio ofrece escenarios de almacenamiento para LLM tanto en puntos de referencia estandarizados como en trazas de producción del mundo real, asegurando que nuestros modelos de carga reflejen con precisión las demandas de E/S durante preentrenamiento, ajuste fino e inferencia. Encontramos que para inferencia, io_uring logra la menor latencia y IOPS competitivas para E/S aleatoria pequeña en NVMe. En contraste, SPDK se limita a la evaluación en dispositivos de bloque crudos debido a su falta de soporte para sistemas de archivos POSIX. Para preentrenamiento y ajuste fino, las cargas de trabajo son dominadas por lecturas y escrituras secuenciales de grano grueso, donde GDS destaca en la reducción de tiempos de carga y uso de CPU huésped. Entre los caminos de datos mediados por CPU, la eficiencia de la CPU—medida en GB/s por núcleo—surge como el diferenciador clave. En conjunto, estos resultados producen directrices de diseño accionables: alinear la elección del camino de datos con la fase del pipeline del LLM. Usar io_uring para inferencia para optimizar la eficiencia en la transferencia de datos y minimizar la latencia, y aprovechar GDS para preentrenamiento y ajuste fino para mejorar el rendimiento por núcleo, reduciendo así la brecha entre almacenamiento y cómputo en clusters de GPU para LLM.
Building similarity graph...
Analyzing shared references across papers
Ali Sedaghatgoo
Reza Salkhordeh
André Brinkmann
Proceedings of the ACM on Measurement and Analysis of Computing Systems
Johannes Gutenberg University Mainz
Saarland University
Sharif University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sedaghatgoo et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: