मिश्रित विशेषज्ञ (MoE) बड़े भाषा मॉडलों (LLMs) को कुशलतापूर्वक स्केल करने के लिए एक प्रमुख वास्तुकला बन गया है, जो कुल पैरामीटरों को गणना लागत से अलग करता है। हालांकि, यह अलगाव एक महत्वपूर्ण चुनौती पैदा करता है: किसी दिए गए MoE विन्यास (जैसे, विशेषज्ञ सक्रियण अनुपात और ग्रैनुलैरिटी) की मॉडल क्षमता का पूर्वानुमान लगाना अब तक हल नहीं हुआ है। इस अंतर को दूर करने के लिए, हमने एफिशिएंसी लेवरेज (EL) पेश किया है, जो एक मीट्रिक है जो MoE मॉडल के एक घने समकक्ष पर गणनात्मक लाभ को मापता है। हमने 28B पैरामीटर तक के 300 से अधिक मॉडलों को प्रशिक्षण देकर एक व्यापक अनुभवात्मक अध्ययन किया, जिसमें MoE वास्तुकला विन्यास और EL के बीच संबंध की व्यवस्थित जांच की गई। हमारे निष्कर्ष बताते हैं कि EL मुख्य रूप से विशेषज्ञ सक्रियण अनुपात और कुल गणना बजट द्वारा संचालित होता है, जो दोनों अनुमानित पावर लॉ का पालन करते हैं, जबकि विशेषज्ञ ग्रैनुलैरिटी एक गैर-रेखीय मॉडुलेटर के रूप में कार्य करता है जिसकी एक स्पष्ट अनुकूल सीमा होती है। हमने इन खोजों को एकीकृत स्केलिंग नियम में सम्मिलित किया है जो MoE वास्तुकला के विन्यास के आधार पर EL की सटीक भविष्यवाणी करता है। हमारे व्युत्पन्न स्केलिंग नियमों को सत्यापित करने के लिए, हमने Ling-mini-beta, Ling-2.0 श्रृंखला के लिए एक पायलट मॉडल, जिसे केवल 0.85B सक्रिय पैरामीटर हैं, के साथ एक 6.1B घना मॉडल भी प्रशिक्षित किया। समान 1T उच्च-गुणवत्ता टोकन डेटासेट पर प्रशिक्षण के दौरान, Ling-mini-beta ने 6.1B घने मॉडल के प्रदर्शन को मिलान किया जबकि 7 गुना कम गणनात्मक संसाधन उपयोग किया, जिससे हमारे स्केलिंग नियमों की सटीकता पुष्टि हुई। यह कार्य कुशल MoE मॉडलों के स्केलिंग के लिए एक सैद्धांतिक और अनुभवात्मक आधार प्रदान करता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Changxin Tian
Kunlong Chen
Jia Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Tian et al. (Wed,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68f163c79903599108abcde4 — DOI: https://doi.org/10.48550/arxiv.2507.17702
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: