What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

अधिक प्रभाव के लिए: दक्ष मिश्रित विशेषज्ञ भाषा मॉडल के लिए स्केलिंग नियम

Key Points

एफिशिएंसी लेवरेज मीट्रिक मिश्रित विशेषज्ञ मॉडलों के गणनात्मक लाभ को घने समकक्षों की तुलना में मापता है।
निष्कर्ष बताते हैं कि विशेषज्ञ सक्रियण अनुपात और गणना बजट अनुमानित पावर लॉ का पालन करते हैं जो लाभ को प्रभावित करते हैं।
Ling-mini-beta मॉडल जिसमें 0.85B सक्रिय पैरामीटर हैं, ने कम संसाधन उपयोग के साथ 6.1B घने मॉडल के प्रदर्शन को मिलाया।
एक एकीकृत स्केलिंग नियम मिश्रित विशेषज्ञ विन्यासों के आधार पर दक्षता लाभ की सटीक भविष्यवाणी करता है।

Abstract

मिश्रित विशेषज्ञ (MoE) बड़े भाषा मॉडलों (LLMs) को कुशलतापूर्वक स्केल करने के लिए एक प्रमुख वास्तुकला बन गया है, जो कुल पैरामीटरों को गणना लागत से अलग करता है। हालांकि, यह अलगाव एक महत्वपूर्ण चुनौती पैदा करता है: किसी दिए गए MoE विन्यास (जैसे, विशेषज्ञ सक्रियण अनुपात और ग्रैनुलैरिटी) की मॉडल क्षमता का पूर्वानुमान लगाना अब तक हल नहीं हुआ है। इस अंतर को दूर करने के लिए, हमने एफिशिएंसी लेवरेज (EL) पेश किया है, जो एक मीट्रिक है जो MoE मॉडल के एक घने समकक्ष पर गणनात्मक लाभ को मापता है। हमने 28B पैरामीटर तक के 300 से अधिक मॉडलों को प्रशिक्षण देकर एक व्यापक अनुभवात्मक अध्ययन किया, जिसमें MoE वास्तुकला विन्यास और EL के बीच संबंध की व्यवस्थित जांच की गई। हमारे निष्कर्ष बताते हैं कि EL मुख्य रूप से विशेषज्ञ सक्रियण अनुपात और कुल गणना बजट द्वारा संचालित होता है, जो दोनों अनुमानित पावर लॉ का पालन करते हैं, जबकि विशेषज्ञ ग्रैनुलैरिटी एक गैर-रेखीय मॉडुलेटर के रूप में कार्य करता है जिसकी एक स्पष्ट अनुकूल सीमा होती है। हमने इन खोजों को एकीकृत स्केलिंग नियम में सम्मिलित किया है जो MoE वास्तुकला के विन्यास के आधार पर EL की सटीक भविष्यवाणी करता है। हमारे व्युत्पन्न स्केलिंग नियमों को सत्यापित करने के लिए, हमने Ling-mini-beta, Ling-2.0 श्रृंखला के लिए एक पायलट मॉडल, जिसे केवल 0.85B सक्रिय पैरामीटर हैं, के साथ एक 6.1B घना मॉडल भी प्रशिक्षित किया। समान 1T उच्च-गुणवत्ता टोकन डेटासेट पर प्रशिक्षण के दौरान, Ling-mini-beta ने 6.1B घने मॉडल के प्रदर्शन को मिलान किया जबकि 7 गुना कम गणनात्मक संसाधन उपयोग किया, जिससे हमारे स्केलिंग नियमों की सटीकता पुष्टि हुई। यह कार्य कुशल MoE मॉडलों के स्केलिंग के लिए एक सैद्धांतिक और अनुभवात्मक आधार प्रदान करता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Changxin Tian

Kunlong Chen

Jia Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

अधिक प्रभाव के लिए: दक्ष मिश्रित विशेषज्ञ भाषा मॉडल के लिए स्केलिंग नियम

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider