आधुनिक मल्टी-एक्सेलेरेटर नोड्स में, GPU थ्रूपुट स्टोरेज और I/O बोतल-गर्दी द्वारा बढ़ते हुए सीमित होता जा रहा है, जिससे डेटा ट्रांसफर सॉफ्टवेयर द्वारा प्रतिबंधित होने के कारण एक्सेलेरेटर निष्क्रिय हो जाते हैं। इस अध्ययन में, हम एकल-नोड, मल्टी-GPU सिस्टम पर छोटे से मध्यम आकार के मॉडल के साथ ध्यान केंद्रित करते हैं और बड़े भाषा मॉडलों (LLMs) के लिए डेटा पाथ प्रदर्शन का एक व्यवस्थित, चरण-ज्ञानी मूल्यांकन प्रस्तुत करते हैं, जिसमें इन-कर्नल libaio, हाइब्रिड उपयोगकर्ता-कर्नल ioᵤring, स्टोरेज परफ़ॉर्मेंस डेवलपमेंट किट (SPDK) के माध्यम से उपयोगकर्ता-स्थान NVMe, और GPUDirect Storage (GDS) जैसी तकनीकों को शामिल किया गया है। इन तरीकों का SATA सॉलिड स्टेट ड्राइव्स (SSDs), NVMe SSDs, Optane NVMe, और Optane पर्सिस्टेंट मेमोरी (PMem) सहित विभिन्न संग्रहण माध्यमों पर मूल्यांकन किया गया। एक स्वचालित मूल्यांकन फ्रेमवर्क का लाभ उठाते हुए, हमने 25,000 से अधिक कॉन्फ़िगरेशन का पता लगाया, थ्रूपुट, लेटेंसी, I/O प्रति सेकंड (IOPS), और CPU लागत को मापा। हमारा अध्ययन LLM स्टोरेज परिदृश्यों को मानकीकृत बेंचमार्क और वास्तविक विश्व उत्पादन ट्रेस दोनों में प्रस्तुत करता है, यह सुनिश्चित करते हुए कि हमारे वर्कलोड मॉडल प्री-ट्रेनिंग, फाइन-ट्यूनिंग, और इन्फरेंस के बीच I/O मांगों को सटीक रूप से दर्शाते हैं। हमने पाया कि इन्फरेंस के लिए, ioᵤring NVMe पर छोटे रैंडम I/O के लिए सबसे कम विलंबता और प्रतिस्पर्धात्मक IOPS प्राप्त करता है। इसके विपरीत, SPDK POSIX फ़ाइल सिस्टम समर्थन की कमी के कारण केवल कच्चे ब्लॉक-डिवाइस मूल्यांकन तक सीमित है। प्री-ट्रेनिंग और फाइन-ट्यूनिंग के लिए, वर्कलोड मोटे-ग्राइन्ड क़िस्तवार पढ़ाई और लिखाई से प्रभुत्व रखते हैं, जहां GDS लोड समय और होस्ट CPU उपयोग को कम करने में उत्कृष्ट है। CPU-समर्थित डेटा पथों में, CPU दक्षता—जो GB/s प्रति कोर के रूप में मापी जाती है—मुख्य अंतरक बनकर उभरती है। ये परिणाम मिलकर कार्यान्वयन योग्य डिजाइन दिशानिर्देश प्रदान करते हैं: डेटा पथ के चयन को LLM पाइपलाइन चरण के अनुरूप बनाएं। इन्फरेंस के लिए ioᵤring का उपयोग करें ताकि डेटा ट्रांसफर दक्षता को अनुकूलित किया जा सके और विलंबता को कम किया जा सके, और प्री-ट्रेनिंग व फाइन-ट्यूनिंग के लिए GDS का लाभ उठाएं ताकि प्रति कोर थ्रूपुट में सुधार हो, इस प्रकार GPU LLM क्लस्टरों में स्टोरेज-से-कंप्यूट गैप को कम किया जा सके।
Building similarity graph...
Analyzing shared references across papers
Ali Sedaghatgoo
Reza Salkhordeh
André Brinkmann
Proceedings of the ACM on Measurement and Analysis of Computing Systems
Johannes Gutenberg University Mainz
Saarland University
Sharif University of Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Sedaghatgoo et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/69c771dd8bbfbc51511e1e3b — DOI: https://doi.org/10.1145/3788106
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: