Em nós multi-aceleradores modernos, a taxa de transferência da GPU está cada vez mais limitada por gargalos de armazenamento e E/S, deixando os aceleradores ociosos enquanto a transferência de dados é restrita pelo software. Neste estudo, focamos em sistemas de nó único com múltiplas GPUs e modelos de pequeno a médio porte, apresentando uma avaliação sistemática e consciente das fases do desempenho do caminho de dados para Grandes Modelos de Linguagem (LLMs), abrangendo tecnologias como libaio no kernel, io_uring híbrido usuário-kernel, NVMe em espaço de usuário via Storage Performance Development Kit (SPDK) e GPUDirect Storage (GDS). Essas abordagens são avaliadas em vários meios de armazenamento incluindo SSDs SATA, SSDs NVMe, Optane NVMe e Memória Persistente Optane (PMem). Utilizando uma estrutura automatizada de avaliação, exploramos mais de 25.000 configurações, medindo taxa de transferência, latência, I/O por segundo (IOPS) e custo de CPU. Nosso estudo oferece cenários de armazenamento LLM em benchmarks padronizados e rastreamentos reais de produção, garantindo que nossos modelos de carga de trabalho reflitam com precisão as demandas de E/S em pré-treinamento, ajuste fino e inferência. Observamos que, para inferência, io_uring alcança a menor latência e IOPS competitivos para I/O aleatório pequeno em NVMe. Em contraste, SPDK está limitado à avaliação bruta de dispositivo de bloco devido à falta de suporte ao sistema de arquivos POSIX. Para pré-treinamento e ajuste fino, as cargas são dominadas por leituras e escritas sequenciais grosseiras, onde GDS se destaca na redução do tempo de carregamento e uso da CPU hospedeira. Entre os caminhos de dados mediados por CPU, a eficiência da CPU — medida como GB/s por núcleo — emerge como o principal diferencial. Em conjunto, esses resultados fornecem diretrizes de design acionáveis: alinhe a escolha do caminho de dados com a fase do pipeline LLM. Use io_uring para inferência para otimizar a eficiência da transferência de dados e minimizar a latência, e aproveite o GDS para pré-treinamento e ajuste fino para melhorar a taxa de transferência por núcleo, estreitando assim a lacuna entre armazenamento e computação em clusters de GPU para LLM.
Building similarity graph...
Analyzing shared references across papers
Ali Sedaghatgoo
Reza Salkhordeh
André Brinkmann
Proceedings of the ACM on Measurement and Analysis of Computing Systems
Johannes Gutenberg University Mainz
Saarland University
Sharif University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sedaghatgoo et al. (Qui,) estudaram essa questão.
www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: