Key points are not available for this paper at this time.
Mixture of Experts(MoE)モデルは、大規模言語モデルの計算コスト削減の主要な解決策として登場しています。本研究では、変数の範囲を拡大してMoEモデルのスケーリング特性を解析します。具体的には、新たなハイパーパラメータである粒度を導入し、これを調整することでエキスパートのサイズを正確にコントロール可能にします。これに基づき、トレーニングトークン数、モデルサイズ、粒度を考慮した細粒度MoEのスケーリング則を確立します。これらの則を活用し、与えられた計算資源の下で最適なトレーニング構成を導出しました。結果として、MoEモデルが密なTransformerモデルを一貫して上回ることに加え、モデルサイズおよびトレーニング予算の拡大に伴い、密モデルとMoEモデル間の効率差が拡大することが明らかになりました。さらに、MoEのエキスパートサイズをフィードフォワード層と同等に設定するという一般的な慣行は、ほぼすべての計算予算において最適でないことを示しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jakub Krajewski
Jan Ludziejewski
Kamil Adamczewski
Building similarity graph...
Analyzing shared references across papers
Loading...
Krajewskiら(Mon,)がこの問題を研究しました。
www.synapsesocial.com/papers/68e79844b6db643587708c5b — DOI: https://doi.org/10.48550/arxiv.2402.07871