현대 다중 가속기 노드에서 GPU 처리량은 저장소 및 입출력 병목 현상에 점점 더 제약을 받아, 소프트웨어에 의해 데이터 전송이 제한되면서 가속기가 유휴 상태가 됩니다. 본 연구에서는 단일 노드 다중 GPU 시스템에서 소규모에서 중간 규모 모델에 집중하여, 커널 내 libaio, 하이브리드 유저-커널 io_uring, Storage Performance Development Kit(SPDK)를 통한 유저 스페이스 NVMe, GPUDirect Storage(GDS)와 같은 기술을 포함하는 대형 언어 모델(LLM)의 데이터 경로 성능에 대한 체계적이고 단계 인지적 평가를 제시합니다. 이들 접근법은 SATA 솔리드 스테이트 드라이브(SSD), NVMe SSD, Optane NVMe, Optane 지속 메모리(PMem) 등 다양한 저장 매체를 대상으로 평가하였습니다. 자동화된 평가 프레임워크를 활용하여 25,000개 이상의 구성을 탐색하며 처리량, 지연 시간, 초당 입출력 횟수(IOPS), CPU 비용을 측정했습니다. 본 연구는 표준화된 벤치마크와 실제 생산 추적 모두에서 LLM 스토리지 시나리오를 제공하여, 사전 학습, 미세 조정 및 추론 전반에 걸친 I/O 수요를 정확히 반영하는 작업 모델을 보장합니다. 추론 단계에서는 io_uring이 NVMe 상의 소규모 랜덤 I/O에 대해 가장 낮은 지연 시간과 경쟁력 있는 IOPS를 달성했습니다. 반면, SPDK는 POSIX 파일 시스템 지원 부족으로 인해 원시 블록 장치 평가에 제한적입니다. 사전 학습 및 미세 조정에서는 작업 부하가 대량의 순차적 읽기 및 쓰기로 지배되며, GDS가 로드 시간 및 호스트 CPU 사용률 감소에 탁월합니다. CPU 주도 데이터 경로 중에서는 코어당 GB/s로 측정된 CPU 효율성이 주요 차별화 요소로 나타났습니다. 종합하면, 이 결과들은 실행 가능한 설계 지침을 제공합니다: 데이터 경로 선택을 LLM 파이프라인 단계에 맞추십시오. 추론에는 io_uring을 사용하여 데이터 전송 효율을 최적화하고 지연 시간을 최소화하며, 사전 학습 및 미세 조정에는 GDS를 활용하여 코어당 처리량을 향상시키고 GPU LLM 클러스터 내의 스토리지-컴퓨트 간격을 좁히십시오.
Building similarity graph...
Analyzing shared references across papers
Ali Sedaghatgoo
Reza Salkhordeh
André Brinkmann
Proceedings of the ACM on Measurement and Analysis of Computing Systems
Johannes Gutenberg University Mainz
Saarland University
Sharif University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sedaghatgoo 등(목,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: