負荷の不均衡は、混合専門家(MoE)モデルのトレーニングにおける主要な性能ボトルネックであり、不均衡な専門家の負荷はルーティングの崩壊を引き起こす可能性があります。既存の多くの手法は負荷を均衡させるために補助的な損失関数を導入していますが、これらの損失関数に含まれるハイパーパラメータは異なるタスクごとに調整が必要なことが多いです。さらに、活性化される専門家の数が増えると負荷の不均衡が悪化しやすく、活性化数を固定すると困難なタスクに対処するモデルの信頼性が低下します。これらの課題に対処するため、本論文では閾値ベースの動的ルーティングアルゴリズムを用いた動的に均衡したルーティング戦略を提案します。各ルーティングステップの後で、次のルーティングにおける負荷分布に影響を与えるために専門家の重みを調整します。損失関数に基づく均衡手法とは異なり、本手法は直接ルーティングレベルで動作し、モデル品質を低下させる可能性のある勾配の攪乱を避けつつ、計算資源をより効率的に利用するために動的にルーティングを行います。自然言語理解(NLU)ベンチマークにおける実験では、提案手法がトップ2ルーティングと同等の精度を達成しつつ、負荷の標準偏差を大幅に減らすことを示しました(例:MNLIで12.25から1.18へ)。加えて、閾値ベースの動的専門家活性化はモデルパラメータを削減し、専門家間の負荷不均衡軽減に新たな視点を提供します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Jialin Wen
Xiaojun Li
Junping Yao
Frontiers in Neurorobotics
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenら(火曜日)は本課題を研究しました。
www.synapsesocial.com/papers/68f0492fe559138a1a06de7e — DOI: https://doi.org/10.3389/fnbot.2025.1590994
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: