大型语言模型中的神经元经常表现出多义性,同时编码多个无关概念,阻碍了解释性。我们提出了MoE-X,一种内在可解释的专家混合(MoE)语言模型,而不是依赖事后方法。我们的思路基于观察:在语言模型中,稀疏激活的更宽网络更有可能捕获可解释因子。然而,直接训练如此大型稀疏网络计算成本过高。MoE架构通过仅激活输入相关的一部分专家,提供了可扩展的替代方案,天然契合解释性目标。在MoE-X中,我们通过将MoE层重写为等价的稀疏大型多层感知机,建立了这一连接。这种方法使隐藏层大小的高效扩展成为可能,同时保持稀疏性。为了进一步提升可解释性,我们在每个专家内实施稀疏激活,并重新设计路由机制,优先考虑激活稀疏度最高的专家。这些设计确保只有最显著的特征被路由和专家处理。我们在国际象棋和自然语言任务上评估MoE-X,结果显示其性能与密集模型相当,同时显著提升了解释性。MoE-X在困惑度方面优于GPT-2,且解释性甚至超过基于稀疏自编码器(SAE)的方法。
Building similarity graph...
Analyzing shared references across papers
Loading...
Xingyi Yang
Constantin Venhoff
Ashkan Khakzar
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang 等人(周三)研究了这个问题。
www.synapsesocial.com/papers/68d90a0f41e1c178a14f6956 — DOI: https://doi.org/10.48550/arxiv.2503.07639
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: