スパースMixture-of-Experts (MoE)アーキテクチャは、モデル容量と計算コストの切り離しに有望なアプローチとして登場しています。MoEモデルの中核はルーターであり、入力分布の基礎となるクラスタリング構造を学習して、入力トークンを適切な専門家に送ります。しかし、高次元では潜在クラスターを特定できない場合があり、これが収束の遅れ、データ汚染への感受性、および適切なトークン-専門家のマッチングができないために全体的な表現の劣化を引き起こします。我々はクラスタリング最適化の観点からルーターを検証し、潜在クラスターを最大限に特定する最適な特徴重みを導出します。これらの重みを用いて、特に各専門家クラスターごとに特徴のスケールを調整する重みのセットを計算し、よく分離されたクラスターを促進する適応変換空間でトークン-専門家のルーティング割り当てを行い、各トークンに最適な専門家の特定を助けます。この新規ルーターをAdaptive Clustering (AC)ルーターと呼びます。ACルーターはMoEモデルに3つの関連した利点をもたらします:1) 迅速な収束、2) データ汚染に対する高いロバストネス、3) 専門家が入力空間の意味的に異なる領域に特化することによる全体的な性能向上です。我々は、言語モデリングおよび画像認識タスクの多様なMoEバックボーンにACルーターを適用し、クリーンかつ汚染された設定の双方でベースラインルーティング手法に対する優位性を実証します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Stefan K. Nielsen
Rachel S. Y. Teo
Laziz U. Abdullaev
Building similarity graph...
Analyzing shared references across papers
Loading...
Nielsenら(Fri,)が本質問を研究しました。
www.synapsesocial.com/papers/68ecc715d1cc7436f7d18844 — DOI: https://doi.org/10.48550/arxiv.2502.15315