Key points are not available for this paper at this time.
モデル容量の拡大はその能力向上に寄与しますが、計算コストを大幅に増加させます。Mixture-of-Expertsモデル(MoEs)は、トレーニングや推論コストを著しく増加させることなくモデル容量を拡大可能にすることで、この問題に対処します。期待される成果があるものの、MoEモデルにはいくつかの課題が存在します。主に、訓練トークンが複数のエキスパートに分散することで、とくに頻度の低いトークンに対してアンダーフィッティングが発生する可能性があります。さらに、固定ルーティングメカニズムはこの問題を緩和できますが、表現の多様性を損ないます。本論文では、Mixture-of-Expertsモデル内でルーティングマスキング技術を用いることでトークンレベル学習を強化するMaskMoEを提案します。MaskMoEは表現の多様性を保ちつつ、より包括的なトレーニングを実現可能です。実験結果は、本手法が従来の主要なMixture-of-Expertsモデルをパープレキシティ(PPL)および下流タスクの両面で上回ることを示しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenpeng Su
Zijia Lin
Xue Bai
Building similarity graph...
Analyzing shared references across papers
Loading...
Suら(Sat,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e60780b6db64358759aa10 — DOI: https://doi.org/10.48550/arxiv.2407.09816
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: