What question did this study set out to answer?

लARGE भाषा मॉडलों पर केंद्रित मल्टी-GPU सिस्टम में कुशल प्रदर्शन के लिए स्टोरेज आर्किटेक्चर का मूल्यांकन और अनुकूलन करना उद्देश्य है।

March 28, 2026

बड़े भाषा मॉडल चलाने वाले GPU क्लस्टरों के लिए स्केलेबल स्टोरेज आर्किटेक्चर की ओर

Key Points

लARGE भाषा मॉडलों पर केंद्रित मल्टी-GPU सिस्टम में कुशल प्रदर्शन के लिए स्टोरेज आर्किटेक्चर का मूल्यांकन और अनुकूलन करना उद्देश्य है।
विभिन्न स्टोरेज माध्यमों पर LLMs के लिए डेटा पथ प्रदर्शन का चरण-ज्ञानी मूल्यांकन किया गया।
libaio, io_uring, SPDK, और GDS जैसी तकनीकों का एक व्यवस्थित विश्लेषण में उपयोग किया गया।
प्रदर्शन मेट्रिक्स जैसे थ्रूपुट और IOPS को मापने के लिए 25,000 से अधिक कॉन्फ़िगरेशन की खोज की गई।
इन्फरेंस के दौरान NVMe पर छोटे रैंडम I/O के लिए io_uring ने सबसे कम विलंबता और प्रतिस्पर्धात्मक IOPS दिखाए।
GDS प्री-ट्रेनिंग और फाइन-ट्यूनिंग वर्कलोड में लोड समय को कम करने में प्रभावी रहा, जो अनुक्रमिक पढ़ाई और लिखाई द्वारा नियंत्रित था।
CPU दक्षता एक महत्वपूर्ण अंतरक के रूप में उभरी, जो डेटा पथ के चयन को LLM पाइपलाइन चरण के साथ संरेखित करने की आवश्यकता पर जोर देती है।

Abstract

आधुनिक मल्टी-एक्सेलेरेटर नोड्स में, GPU थ्रूपुट स्टोरेज और I/O बोतल-गर्दी द्वारा बढ़ते हुए सीमित होता जा रहा है, जिससे डेटा ट्रांसफर सॉफ्टवेयर द्वारा प्रतिबंधित होने के कारण एक्सेलेरेटर निष्क्रिय हो जाते हैं। इस अध्ययन में, हम एकल-नोड, मल्टी-GPU सिस्टम पर छोटे से मध्यम आकार के मॉडल के साथ ध्यान केंद्रित करते हैं और बड़े भाषा मॉडलों (LLMs) के लिए डेटा पाथ प्रदर्शन का एक व्यवस्थित, चरण-ज्ञानी मूल्यांकन प्रस्तुत करते हैं, जिसमें इन-कर्नल libaio, हाइब्रिड उपयोगकर्ता-कर्नल ioᵤring, स्टोरेज परफ़ॉर्मेंस डेवलपमेंट किट (SPDK) के माध्यम से उपयोगकर्ता-स्थान NVMe, और GPUDirect Storage (GDS) जैसी तकनीकों को शामिल किया गया है। इन तरीकों का SATA सॉलिड स्टेट ड्राइव्स (SSDs), NVMe SSDs, Optane NVMe, और Optane पर्सिस्टेंट मेमोरी (PMem) सहित विभिन्न संग्रहण माध्यमों पर मूल्यांकन किया गया। एक स्वचालित मूल्यांकन फ्रेमवर्क का लाभ उठाते हुए, हमने 25,000 से अधिक कॉन्फ़िगरेशन का पता लगाया, थ्रूपुट, लेटेंसी, I/O प्रति सेकंड (IOPS), और CPU लागत को मापा। हमारा अध्ययन LLM स्टोरेज परिदृश्यों को मानकीकृत बेंचमार्क और वास्तविक विश्व उत्पादन ट्रेस दोनों में प्रस्तुत करता है, यह सुनिश्चित करते हुए कि हमारे वर्कलोड मॉडल प्री-ट्रेनिंग, फाइन-ट्यूनिंग, और इन्फरेंस के बीच I/O मांगों को सटीक रूप से दर्शाते हैं। हमने पाया कि इन्फरेंस के लिए, ioᵤring NVMe पर छोटे रैंडम I/O के लिए सबसे कम विलंबता और प्रतिस्पर्धात्मक IOPS प्राप्त करता है। इसके विपरीत, SPDK POSIX फ़ाइल सिस्टम समर्थन की कमी के कारण केवल कच्चे ब्लॉक-डिवाइस मूल्यांकन तक सीमित है। प्री-ट्रेनिंग और फाइन-ट्यूनिंग के लिए, वर्कलोड मोटे-ग्राइन्ड क़िस्तवार पढ़ाई और लिखाई से प्रभुत्व रखते हैं, जहां GDS लोड समय और होस्ट CPU उपयोग को कम करने में उत्कृष्ट है। CPU-समर्थित डेटा पथों में, CPU दक्षता—जो GB/s प्रति कोर के रूप में मापी जाती है—मुख्य अंतरक बनकर उभरती है। ये परिणाम मिलकर कार्यान्वयन योग्य डिजाइन दिशानिर्देश प्रदान करते हैं: डेटा पथ के चयन को LLM पाइपलाइन चरण के अनुरूप बनाएं। इन्फरेंस के लिए ioᵤring का उपयोग करें ताकि डेटा ट्रांसफर दक्षता को अनुकूलित किया जा सके और विलंबता को कम किया जा सके, और प्री-ट्रेनिंग व फाइन-ट्यूनिंग के लिए GDS का लाभ उठाएं ताकि प्रति कोर थ्रूपुट में सुधार हो, इस प्रकार GPU LLM क्लस्टरों में स्टोरेज-से-कंप्यूट गैप को कम किया जा सके।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Ali Sedaghatgoo

Reza Salkhordeh

André Brinkmann

Journals

Proceedings of the ACM on Measurement and Analysis of Computing Systems

Actions

Institutions

Johannes Gutenberg University Mainz

Saarland University

Sharif University of Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

बड़े भाषा मॉडल चलाने वाले GPU क्लस्टरों के लिए स्केलेबल स्टोरेज आर्किटेक्चर की ओर

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider