मिक्सचर-ऑफ-एक्सपर्ट्स (MoE) आर्किटेक्चर बड़े भाषा मॉडल (LLMs) को कुशलतापूर्वक स्केल करने के लिए एक प्रमुख रणनीति के रूप में उभरे हैं। हालांकि, वर्तमान MoE सिस्टम गंभीर लोड असंतुलन का सामना करते हैं, जहां केवल विशेषज्ञों का एक छोटा subset लगातार प्रशिक्षण और inference के दौरान सक्रिय होता है, जिससे मॉडल क्षमता और कम्प्यूटेशनल संसाधनों का महत्वपूर्ण रूप से अधिनियोग होता है। इस कार्य में, हम क्लस्टरिंग परिप्रेक्ष्य के माध्यम से विशेषज्ञ रूटिंग की पुनर्समीक्षा करते हैं और Latent Prototype Routing (LPR) प्रस्तुत करते हैं, जो मौजूदा दृष्टिकोण को सामान्यीकृत करता है जबकि संतुलित विशेषज्ञ उपयोग को बढ़ावा देता है बिना डाउनस्ट्रीम प्रदर्शन से समझौता किए। DeepSeek-V3, Qwen3-MoE, और Mixtral सहित कई खुले स्रोत MoE मॉडलों पर व्यापक प्रयोग दिखाते हैं कि LPR विशेषज्ञ लोड का गिनी गुणांक औसतन 0.70 से घटाकर 0.035 कर देता है, न्यूनतम-अधिकतम विशेषज्ञ लोड अनुपात को 1e-6 से 0.70 तक सुधारता है, जिससे लगभग पूर्ण लोड बैलेंसिंग प्राप्त होती है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinge Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
जिंगे यांग (गुरुवार,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68f04acce559138a1a06e872 — DOI: https://doi.org/10.48550/arxiv.2506.21328
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: