February 27, 2024Open Access

通过更稀疏的选择提升稀疏模型的效率

Key Points

Key points are not available for this paper at this time.

Abstract

稀疏模型，包括稀疏专家混合（MoE）模型，已成为扩展Transformer模型的有效方法。然而，由于大量参数被不必要地参与计算（通过乘以零值或低激活值），它们经常面临计算效率低下的问题。为了解决这一问题，我们提出了一种新型MoE，旨在提升稀疏MoE模型的效能与效率。它利用小型专家和基于阈值的路由器，使令牌能选择性地只激活必要的参数。我们在语言建模和机器翻译任务上的大量实验表明，该方法在不牺牲性能的情况下，可提升模型表现，同时将MoE层的计算负载降低超过50%。此外，我们通过将其应用于密集模型，实现推理期间的稀疏计算，展示了该方法的多样性。我们提供了详尽的分析，代码可在https://anonymous.4open.science/r/XMoE获取。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yuanhang Yang

Shiyi Qi

Wenchao Gu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

通过更稀疏的选择提升稀疏模型的效率

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider