What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

MoEの動的ルーティングのための適応型専門家重みベース負荷分散方式

Key Points

提案手法はMNLIでの負荷標準偏差を12.25から1.18に低減し、性能を向上させます。
この動的ルーティング戦略は各ステップの後に専門家の重みを調整し、負荷を効果的に均衡させます。
自然言語理解ベンチマークの実験では、トップ2ルーティングと同等の精度が示されています。
本アプローチはルーティングレベルで直接負荷不均衡を軽減し、勾配に関連する問題を回避します。

Abstract

負荷の不均衡は、混合専門家（MoE）モデルのトレーニングにおける主要な性能ボトルネックであり、不均衡な専門家の負荷はルーティングの崩壊を引き起こす可能性があります。既存の多くの手法は負荷を均衡させるために補助的な損失関数を導入していますが、これらの損失関数に含まれるハイパーパラメータは異なるタスクごとに調整が必要なことが多いです。さらに、活性化される専門家の数が増えると負荷の不均衡が悪化しやすく、活性化数を固定すると困難なタスクに対処するモデルの信頼性が低下します。これらの課題に対処するため、本論文では閾値ベースの動的ルーティングアルゴリズムを用いた動的に均衡したルーティング戦略を提案します。各ルーティングステップの後で、次のルーティングにおける負荷分布に影響を与えるために専門家の重みを調整します。損失関数に基づく均衡手法とは異なり、本手法は直接ルーティングレベルで動作し、モデル品質を低下させる可能性のある勾配の攪乱を避けつつ、計算資源をより効率的に利用するために動的にルーティングを行います。自然言語理解（NLU）ベンチマークにおける実験では、提案手法がトップ2ルーティングと同等の精度を達成しつつ、負荷の標準偏差を大幅に減らすことを示しました（例：MNLIで12.25から1.18へ）。加えて、閾値ベースの動的専門家活性化はモデルパラメータを削減し、専門家間の負荷不均衡軽減に新たな視点を提供します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jialin Wen

Xiaojun Li

Junping Yao

Journals

Frontiers in Neurorobotics

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoEの動的ルーティングのための適応型専門家重みベース負荷分散方式

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider