What question did this study set out to answer?

대규모 언어 모델에 중점을 둔 다중 GPU 시스템에서 효율적인 성능을 위한 스토리지 아키텍처 평가 및 최적화가 목표입니다.

March 28, 2026

대규모 언어 모델을 실행하는 GPU 클러스터를 위한 확장 가능한 스토리지 아키텍처를 향하여

Key Points

대규모 언어 모델에 중점을 둔 다중 GPU 시스템에서 효율적인 성능을 위한 스토리지 아키텍처 평가 및 최적화가 목표입니다.
여러 저장 매체에 대해 LLM의 데이터 경로 성능을 단계 인지적으로 평가했습니다.
libaio, io_uring, SPDK, GDS 등의 기술을 활용하여 체계적으로 분석했습니다.
25,000개 이상의 구성을 탐색하며 처리량과 IOPS 같은 성능 지표를 측정했습니다.
추론 시 NVMe 상의 소규모 랜덤 I/O에 대해 io_uring이 가장 낮은 지연 시간과 경쟁력 있는 IOPS를 보였습니다.
사전 학습과 미세 조정 작업은 순차적 읽기 및 쓰기가 주를 이루며, GDS가 로드 시간을 줄이는 데 효과적이었습니다.
CPU 효율성이 핵심 차별화 요소로 나타나, 데이터 경로 선택을 LLM 파이프라인 단계와 일치시키는 것이 중요함을 강조합니다.

Abstract

현대 다중 가속기 노드에서 GPU 처리량은 저장소 및 입출력 병목 현상에 점점 더 제약을 받아, 소프트웨어에 의해 데이터 전송이 제한되면서 가속기가 유휴 상태가 됩니다. 본 연구에서는 단일 노드 다중 GPU 시스템에서 소규모에서 중간 규모 모델에 집중하여, 커널 내 libaio, 하이브리드 유저-커널 io_uring, Storage Performance Development Kit(SPDK)를 통한 유저 스페이스 NVMe, GPUDirect Storage(GDS)와 같은 기술을 포함하는 대형 언어 모델(LLM)의 데이터 경로 성능에 대한 체계적이고 단계 인지적 평가를 제시합니다. 이들 접근법은 SATA 솔리드 스테이트 드라이브(SSD), NVMe SSD, Optane NVMe, Optane 지속 메모리(PMem) 등 다양한 저장 매체를 대상으로 평가하였습니다. 자동화된 평가 프레임워크를 활용하여 25,000개 이상의 구성을 탐색하며 처리량, 지연 시간, 초당 입출력 횟수(IOPS), CPU 비용을 측정했습니다. 본 연구는 표준화된 벤치마크와 실제 생산 추적 모두에서 LLM 스토리지 시나리오를 제공하여, 사전 학습, 미세 조정 및 추론 전반에 걸친 I/O 수요를 정확히 반영하는 작업 모델을 보장합니다. 추론 단계에서는 io_uring이 NVMe 상의 소규모 랜덤 I/O에 대해 가장 낮은 지연 시간과 경쟁력 있는 IOPS를 달성했습니다. 반면, SPDK는 POSIX 파일 시스템 지원 부족으로 인해 원시 블록 장치 평가에 제한적입니다. 사전 학습 및 미세 조정에서는 작업 부하가 대량의 순차적 읽기 및 쓰기로 지배되며, GDS가 로드 시간 및 호스트 CPU 사용률 감소에 탁월합니다. CPU 주도 데이터 경로 중에서는 코어당 GB/s로 측정된 CPU 효율성이 주요 차별화 요소로 나타났습니다. 종합하면, 이 결과들은 실행 가능한 설계 지침을 제공합니다: 데이터 경로 선택을 LLM 파이프라인 단계에 맞추십시오. 추론에는 io_uring을 사용하여 데이터 전송 효율을 최적화하고 지연 시간을 최소화하며, 사전 학습 및 미세 조정에는 GDS를 활용하여 코어당 처리량을 향상시키고 GPU LLM 클러스터 내의 스토리지-컴퓨트 간격을 좁히십시오.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ali Sedaghatgoo

Reza Salkhordeh

André Brinkmann

Journals

Proceedings of the ACM on Measurement and Analysis of Computing Systems

Actions

Institutions

Johannes Gutenberg University Mainz

Saarland University

Sharif University of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

대규모 언어 모델을 실행하는 GPU 클러스터를 위한 확장 가능한 스토리지 아키텍처를 향하여

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider