What type of study is this?

This is a Experimental Study study.

October 16, 2025Open Access

लेटेंट प्रोटोटाइप रूटिंग: मिक्सचर-ऑफ-एक्सपर्ट्स में लगभग पूर्ण लोड बैलेंसिंग प्राप्त करना

Key Points

लेटेंट प्रोटोटाइप रूटिंग मिक्सचर-ऑफ-एक्सपर्ट्स आर्किटेक्चर में लोड बैलेंसिंग को महत्वपूर्ण रूप से सुधारता है, लगभग पूर्ण विशेषज्ञ उपयोग प्राप्त करता है।
प्रयोग दिखाते हैं कि LPR विशेषज्ञ लोड के गिनी गुणांक को 0.70 से 0.035 तक घटाता है, जो लोड बैलेंसिंग में महत्वपूर्ण सुधार दर्शाता है।
प्रस्तावित विधि विशेषज्ञ रूटिंग पर एक नवीन क्लस्टरिंग दृष्टिकोण लागू करती है, जो लोड असंतुलनों को प्रभावी ढंग से निपटाने के लिए नया तरीका प्रदान करती है।
1e-6 से 0.70 तक के न्यूनतम-अधिकतम विशेषज्ञ लोड अनुपात में सुधार LPR की मॉडल क्षमता उपयोग अनुकूलन में दक्षता को दर्शाता है।

Abstract

मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर बड़े भाषा मॉडल (LLMs) को कुशलतापूर्वक स्केल करने के लिए एक प्रमुख रणनीति के रूप में उभरे हैं। हालांकि, वर्तमान MoE सिस्टम गंभीर लोड असंतुलन का सामना करते हैं, जहां केवल विशेषज्ञों का एक छोटा subset लगातार प्रशिक्षण और inference के दौरान सक्रिय होता है, जिससे मॉडल क्षमता और कम्प्यूटेशनल संसाधनों का महत्वपूर्ण रूप से अधिनियोग होता है। इस कार्य में, हम क्लस्टरिंग परिप्रेक्ष्य के माध्यम से विशेषज्ञ रूटिंग की पुनर्समीक्षा करते हैं और Latent Prototype Routing (LPR) प्रस्तुत करते हैं, जो मौजूदा दृष्टिकोण को सामान्यीकृत करता है जबकि संतुलित विशेषज्ञ उपयोग को बढ़ावा देता है बिना डाउनस्ट्रीम प्रदर्शन से समझौता किए। DeepSeek-V3, Qwen3-MoE, और Mixtral सहित कई खुले स्रोत MoE मॉडलों पर व्यापक प्रयोग दिखाते हैं कि LPR विशेषज्ञ लोड का गिनी गुणांक औसतन 0.70 से घटाकर 0.035 कर देता है, न्यूनतम-अधिकतम विशेषज्ञ लोड अनुपात को 1e-6 से 0.70 तक सुधारता है, जिससे लगभग पूर्ण लोड बैलेंसिंग प्राप्त होती है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jinge Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

लेटेंट प्रोटोटाइप रूटिंग: मिक्सचर-ऑफ-एक्सपर्ट्स में लगभग पूर्ण लोड बैलेंसिंग प्राप्त करना

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider