Mixture of Experts (MoE) 架构已成为当代深度学习的基本框架,通过动态激活一组稀疏的专家子网络,实现了可扩展的条件计算。MoE 通过将容量与计算成本解耦,实现了前所未有的参数效率,同时保持甚至超越了密集模型的预测性能。本综述深入分析了 MoE 模型的理论和实证特性,重点关注其结构属性、功能容量和训练动态。我们正式定义了一般 MoE 函数类为:\ f (x) = ₌=₁^M Gₘ (x) Eₘ (x), \ 其中 Eₘ 是专家网络,Gₘ 是满足稀疏性约束 \|G (x) \|₀ ≤ k ≤ M 的门控系数。我们探讨了 MoE 的逼近能力,证明在对门控函数和专家类采取温和假设下,这类模型构成通用逼近器族。此外,我们研究了 MoE 的有效容量扩展,显示其 VC 维和 Rademacher 复杂度随专家数量 M 增长,而单样本计算量被 k 限制。综述将 MoE 设计分为硬门控与软门控、静态与动态路由、浅层与分层专家结构,并评估其对优化与泛化的影响。我们分析了 MoE 独有的挑战,包括专家塌陷、路由不稳定和不规则通信开销。近期进展如 Switch Transformers、GShard、V-MoE 及 Token Routing 均在这些挑战背景下被审视。最后,我们阐述了开放问题及研究前沿,包括最优门控函数设计、通过专家扩展实现的持续学习、模块化可解释性以及稀疏混合建模的理论极限。该综述旨在为 Mixture of Experts 作为一种可扩展、模块化的高效适应型人工智能范式提供统一的数学基础和未来展望。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yusuf Midha
Harnani Husni
Fawzi Gamal
Building similarity graph...
Analyzing shared references across papers
Loading...
Midha 等人(星期二)研究了该问题。
www.synapsesocial.com/papers/689523d29f4f1c896c42a056 — DOI: https://doi.org/10.20944/preprints202508.0288.v1
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: