What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

September 28, 2025Open Access

内在可解释的专家混合模型

Key Points

MoE-X在达到密集语言模型性能的同时，实现了更好的解释性。
在国际象棋和自然语言任务中的评估显示其困惑度优于GPT-2。
每个专家内部的稀疏激活增强了特征路由和解释性目标的实现。
模型架构允许在保持性能的同时高效扩展。

Abstract

大型语言模型中的神经元经常表现出多义性，同时编码多个无关概念，阻碍了解释性。我们提出了MoE-X，一种内在可解释的专家混合（MoE）语言模型，而不是依赖事后方法。我们的思路基于观察：在语言模型中，稀疏激活的更宽网络更有可能捕获可解释因子。然而，直接训练如此大型稀疏网络计算成本过高。MoE架构通过仅激活输入相关的一部分专家，提供了可扩展的替代方案，天然契合解释性目标。在MoE-X中，我们通过将MoE层重写为等价的稀疏大型多层感知机，建立了这一连接。这种方法使隐藏层大小的高效扩展成为可能，同时保持稀疏性。为了进一步提升可解释性，我们在每个专家内实施稀疏激活，并重新设计路由机制，优先考虑激活稀疏度最高的专家。这些设计确保只有最显著的特征被路由和专家处理。我们在国际象棋和自然语言任务上评估MoE-X，结果显示其性能与密集模型相当，同时显著提升了解释性。MoE-X在困惑度方面优于GPT-2，且解释性甚至超过基于稀疏自编码器（SAE）的方法。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xingyi Yang

Constantin Venhoff

Ashkan Khakzar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

内在可解释的专家混合模型

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider