July 13, 2024Open Access

MaskMoE: Mixture-of-Expertsにおけるルーティングマスクを用いたトークンレベル学習の強化

Key Points

Key points are not available for this paper at this time.

Abstract

モデル容量の拡大はその能力向上に寄与しますが、計算コストを大幅に増加させます。Mixture-of-Expertsモデル（MoEs）は、トレーニングや推論コストを著しく増加させることなくモデル容量を拡大可能にすることで、この問題に対処します。期待される成果があるものの、MoEモデルにはいくつかの課題が存在します。主に、訓練トークンが複数のエキスパートに分散することで、とくに頻度の低いトークンに対してアンダーフィッティングが発生する可能性があります。さらに、固定ルーティングメカニズムはこの問題を緩和できますが、表現の多様性を損ないます。本論文では、Mixture-of-Expertsモデル内でルーティングマスキング技術を用いることでトークンレベル学習を強化するMaskMoEを提案します。MaskMoEは表現の多様性を保ちつつ、より包括的なトレーニングを実現可能です。実験結果は、本手法が従来の主要なMixture-of-Expertsモデルをパープレキシティ（PPL）および下流タスクの両面で上回ることを示しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenpeng Su

Zijia Lin

Xue Bai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MaskMoE: Mixture-of-Expertsにおけるルーティングマスクを用いたトークンレベル学習の強化

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider