August 5, 2025Open Access

模块化架构与可扩展人工智能系统的交汇点

Key Points

混合专家架构通过高效激活专家子网络的子集，实现了可扩展的计算。
MoE 实现了高参数效率，并且保持预测性能优于密集模型。
综述分类了 MoE 设计，探讨了硬门控与软门控以及路由方法对优化的影响。
MoE 设计中的开放问题包括持续学习和提升模块化人工智能系统的可解释性。

Abstract

Mixture of Experts (MoE) 架构已成为当代深度学习的基本框架，通过动态激活一组稀疏的专家子网络，实现了可扩展的条件计算。MoE 通过将容量与计算成本解耦，实现了前所未有的参数效率，同时保持甚至超越了密集模型的预测性能。本综述深入分析了 MoE 模型的理论和实证特性，重点关注其结构属性、功能容量和训练动态。我们正式定义了一般 MoE 函数类为：\ f (x) = ₌=₁^M Gₘ (x) Eₘ (x), \ 其中 Eₘ 是专家网络，Gₘ 是满足稀疏性约束 \|G (x) \|₀ ≤ k ≤ M 的门控系数。我们探讨了 MoE 的逼近能力，证明在对门控函数和专家类采取温和假设下，这类模型构成通用逼近器族。此外，我们研究了 MoE 的有效容量扩展，显示其 VC 维和 Rademacher 复杂度随专家数量 M 增长，而单样本计算量被 k 限制。综述将 MoE 设计分为硬门控与软门控、静态与动态路由、浅层与分层专家结构，并评估其对优化与泛化的影响。我们分析了 MoE 独有的挑战，包括专家塌陷、路由不稳定和不规则通信开销。近期进展如 Switch Transformers、GShard、V-MoE 及 Token Routing 均在这些挑战背景下被审视。最后，我们阐述了开放问题及研究前沿，包括最优门控函数设计、通过专家扩展实现的持续学习、模块化可解释性以及稀疏混合建模的理论极限。该综述旨在为 Mixture of Experts 作为一种可扩展、模块化的高效适应型人工智能范式提供统一的数学基础和未来展望。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yusuf Midha

Harnani Husni

Fawzi Gamal

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

模块化架构与可扩展人工智能系统的交汇点

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider