What question did this study set out to answer?

El objetivo es evaluar y optimizar arquitecturas de almacenamiento para un rendimiento eficiente en sistemas multi-GPU centrados en grandes modelos de lenguaje.

March 28, 2026

Hacia arquitecturas de almacenamiento escalables para clusters de GPU que ejecutan grandes modelos de lenguaje

Puntos clave

El objetivo es evaluar y optimizar arquitecturas de almacenamiento para un rendimiento eficiente en sistemas multi-GPU centrados en grandes modelos de lenguaje.
Se realizó una evaluación consciente de fases del rendimiento del camino de datos para LLM en diversos medios de almacenamiento.
Se utilizaron tecnologías como libaio, io_uring, SPDK y GDS en un análisis sistemático.
Se exploraron más de 25,000 configuraciones para medir métricas de rendimiento como rendimiento y IOPS.
io_uring mostró la menor latencia y IOPS competitivas para operaciones aleatorias pequeñas en NVMe durante la inferencia.
GDS fue eficaz en reducir los tiempos de carga para cargas de trabajo de preentrenamiento y ajuste fino, dominadas por lecturas y escrituras secuenciales.
La eficiencia de la CPU emergió como un diferenciador crítico, enfatizando la necesidad de alinear la elección del camino de datos con la fase del pipeline del LLM.

Resumen

En nodos modernos con múltiples aceleradores, el rendimiento de la GPU está cada vez más limitado por cuellos de botella en el almacenamiento y la E/S, dejando los aceleradores inactivos mientras la transferencia de datos está restringida por el software. En este estudio, nos centramos en sistemas de un solo nodo con múltiples GPUs y modelos de tamaño pequeño a mediano, y presentamos una evaluación sistemática y consciente de fases del rendimiento del camino de datos para Grandes Modelos de Lenguaje (LLMs), abarcando tecnologías como libaio en kernel, io_uring híbrido usuario-kernel, NVMe en espacio de usuario mediante el Storage Performance Development Kit (SPDK) y GPUDirect Storage (GDS). Estos enfoques se evalúan en diversos medios de almacenamiento, incluyendo unidades de estado sólido SATA (SSD), NVMe SSD, NVMe Optane y Memoria Persistente Optane (PMem). Aprovechando un marco de evaluación automatizado, exploramos más de 25,000 configuraciones, midiendo rendimiento, latencia, operaciones de entrada/salida por segundo (IOPS) y costo de CPU. Nuestro estudio ofrece escenarios de almacenamiento para LLM tanto en puntos de referencia estandarizados como en trazas de producción del mundo real, asegurando que nuestros modelos de carga reflejen con precisión las demandas de E/S durante preentrenamiento, ajuste fino e inferencia. Encontramos que para inferencia, io_uring logra la menor latencia y IOPS competitivas para E/S aleatoria pequeña en NVMe. En contraste, SPDK se limita a la evaluación en dispositivos de bloque crudos debido a su falta de soporte para sistemas de archivos POSIX. Para preentrenamiento y ajuste fino, las cargas de trabajo son dominadas por lecturas y escrituras secuenciales de grano grueso, donde GDS destaca en la reducción de tiempos de carga y uso de CPU huésped. Entre los caminos de datos mediados por CPU, la eficiencia de la CPU—medida en GB/s por núcleo—surge como el diferenciador clave. En conjunto, estos resultados producen directrices de diseño accionables: alinear la elección del camino de datos con la fase del pipeline del LLM. Usar io_uring para inferencia para optimizar la eficiencia en la transferencia de datos y minimizar la latencia, y aprovechar GDS para preentrenamiento y ajuste fino para mejorar el rendimiento por núcleo, reduciendo así la brecha entre almacenamiento y cómputo en clusters de GPU para LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Feed social

Authors

Ali Sedaghatgoo

Reza Salkhordeh

André Brinkmann

Journals

Proceedings of the ACM on Measurement and Analysis of Computing Systems

Actions

Institutions

Johannes Gutenberg University Mainz

Saarland University

Sharif University of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Sedaghatgoo et al. (Thu,) estudiaron esta cuestión.

www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Enriching Location Representation with Detailed Semantic Information· 2024 · 350 citations
Gemma: Open Models Based on Gemini Research and Technology· 2024 · 222 citations
Qwen2.5 Technical Report· 2024 · 67 citations
Performance Characterization of NVMe Flash Devices with Zoned Namespaces (ZNS)

Hacia arquitecturas de almacenamiento escalables para clusters de GPU que ejecutan grandes modelos de lenguaje

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Feed social

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider