February 12, 2024Open Access

細粒度Mixture of Expertsのスケーリング則

Key Points

Key points are not available for this paper at this time.

Abstract

Mixture of Experts（MoE）モデルは、大規模言語モデルの計算コスト削減の主要な解決策として登場しています。本研究では、変数の範囲を拡大してMoEモデルのスケーリング特性を解析します。具体的には、新たなハイパーパラメータである粒度を導入し、これを調整することでエキスパートのサイズを正確にコントロール可能にします。これに基づき、トレーニングトークン数、モデルサイズ、粒度を考慮した細粒度MoEのスケーリング則を確立します。これらの則を活用し、与えられた計算資源の下で最適なトレーニング構成を導出しました。結果として、MoEモデルが密なTransformerモデルを一貫して上回ることに加え、モデルサイズおよびトレーニング予算の拡大に伴い、密モデルとMoEモデル間の効率差が拡大することが明らかになりました。さらに、MoEのエキスパートサイズをフィードフォワード層と同等に設定するという一般的な慣行は、ほぼすべての計算予算において最適でないことを示しました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jakub Krajewski

Jan Ludziejewski

Kamil Adamczewski

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

細粒度Mixture of Expertsのスケーリング則

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study