Key points are not available for this paper at this time.
稀疏模型,包括稀疏专家混合(MoE)模型,已成为扩展Transformer模型的有效方法。然而,由于大量参数被不必要地参与计算(通过乘以零值或低激活值),它们经常面临计算效率低下的问题。为了解决这一问题,我们提出了一种新型MoE,旨在提升稀疏MoE模型的效能与效率。它利用小型专家和基于阈值的路由器,使令牌能选择性地只激活必要的参数。我们在语言建模和机器翻译任务上的大量实验表明,该方法在不牺牲性能的情况下,可提升模型表现,同时将MoE层的计算负载降低超过50%。此外,我们通过将其应用于密集模型,实现推理期间的稀疏计算,展示了该方法的多样性。我们提供了详尽的分析,代码可在https://anonymous.4open.science/r/XMoE获取。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yuanhang Yang
Shiyi Qi
Wenchao Gu
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang等人(星期二,)研究了该问题。
www.synapsesocial.com/papers/68e7779db6db6435876ec53b — DOI: https://doi.org/10.48550/arxiv.2403.18926
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: