What question did this study set out to answer?

O objetivo é avaliar e otimizar arquiteturas de armazenamento para desempenho eficiente em sistemas multi-GPU com foco em grandes modelos de linguagem.

March 28, 2026

Rumo a Arquiteturas de Armazenamento Escaláveis para Clusters de GPU Executando Grandes Modelos de Linguagem

Key Points

O objetivo é avaliar e otimizar arquiteturas de armazenamento para desempenho eficiente em sistemas multi-GPU com foco em grandes modelos de linguagem.
Realizou uma avaliação consciente das fases do desempenho do caminho de dados para LLMs em vários meios de armazenamento.
Utilizou tecnologias incluindo libaio, io_uring, SPDK e GDS em uma análise sistemática.
Explorou mais de 25.000 configurações para medir métricas de desempenho como taxa de transferência e IOPS.
io_uring demonstrou a menor latência e IOPS competitivos para I/O aleatório pequeno em NVMe durante inferência.
GDS foi eficaz em reduzir os tempos de carregamento para cargas de trabalho de pré-treinamento e ajuste fino, dominadas por leituras e escritas sequenciais.
A eficiência da CPU emergiu como um diferenciador crítico, enfatizando a necessidade de alinhar a escolha do caminho de dados com a fase do pipeline LLM.

Abstract

Em nós multi-aceleradores modernos, a taxa de transferência da GPU está cada vez mais limitada por gargalos de armazenamento e E/S, deixando os aceleradores ociosos enquanto a transferência de dados é restrita pelo software. Neste estudo, focamos em sistemas de nó único com múltiplas GPUs e modelos de pequeno a médio porte, apresentando uma avaliação sistemática e consciente das fases do desempenho do caminho de dados para Grandes Modelos de Linguagem (LLMs), abrangendo tecnologias como libaio no kernel, io_uring híbrido usuário-kernel, NVMe em espaço de usuário via Storage Performance Development Kit (SPDK) e GPUDirect Storage (GDS). Essas abordagens são avaliadas em vários meios de armazenamento incluindo SSDs SATA, SSDs NVMe, Optane NVMe e Memória Persistente Optane (PMem). Utilizando uma estrutura automatizada de avaliação, exploramos mais de 25.000 configurações, medindo taxa de transferência, latência, I/O por segundo (IOPS) e custo de CPU. Nosso estudo oferece cenários de armazenamento LLM em benchmarks padronizados e rastreamentos reais de produção, garantindo que nossos modelos de carga de trabalho reflitam com precisão as demandas de E/S em pré-treinamento, ajuste fino e inferência. Observamos que, para inferência, io_uring alcança a menor latência e IOPS competitivos para I/O aleatório pequeno em NVMe. Em contraste, SPDK está limitado à avaliação bruta de dispositivo de bloco devido à falta de suporte ao sistema de arquivos POSIX. Para pré-treinamento e ajuste fino, as cargas são dominadas por leituras e escritas sequenciais grosseiras, onde GDS se destaca na redução do tempo de carregamento e uso da CPU hospedeira. Entre os caminhos de dados mediados por CPU, a eficiência da CPU — medida como GB/s por núcleo — emerge como o principal diferencial. Em conjunto, esses resultados fornecem diretrizes de design acionáveis: alinhe a escolha do caminho de dados com a fase do pipeline LLM. Use io_uring para inferência para otimizar a eficiência da transferência de dados e minimizar a latência, e aproveite o GDS para pré-treinamento e ajuste fino para melhorar a taxa de transferência por núcleo, estreitando assim a lacuna entre armazenamento e computação em clusters de GPU para LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ali Sedaghatgoo

Reza Salkhordeh

André Brinkmann

Journals

Proceedings of the ACM on Measurement and Analysis of Computing Systems

Actions

Institutions

Johannes Gutenberg University Mainz

Saarland University

Sharif University of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Sedaghatgoo et al. (Qui,) estudaram essa questão.

www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Enriching Location Representation with Detailed Semantic Information· 2024 · 350 citations
Gemma: Open Models Based on Gemini Research and Technology· 2024 · 222 citations
Qwen2.5 Technical Report· 2024 · 67 citations
Performance Characterization of NVMe Flash Devices with Zoned Namespaces (ZNS)

Rumo a Arquiteturas de Armazenamento Escaláveis para Clusters de GPU Executando Grandes Modelos de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider