What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

密集したクラスターが専門家を専門化する

Key Points

Adaptive Clusteringルーターは収束を促進し、データ汚染に対するモデルのロバスト性を向上させます。
実験結果は、クリーンおよび汚染された環境の両方で、さまざまなMoEバックボーンで著しい性能向上を示しています。
特徴重みの最適化は潜在クラスターの特定を助け、トークン-専門家ルーティングの精度を大幅に高めます。
ACルーターは専門家を意味的に異なる領域に特化させ、モデル容量のより効率的な活用を実現します。

Abstract

スパースMixture-of-Experts (MoE)アーキテクチャは、モデル容量と計算コストの切り離しに有望なアプローチとして登場しています。MoEモデルの中核はルーターであり、入力分布の基礎となるクラスタリング構造を学習して、入力トークンを適切な専門家に送ります。しかし、高次元では潜在クラスターを特定できない場合があり、これが収束の遅れ、データ汚染への感受性、および適切なトークン-専門家のマッチングができないために全体的な表現の劣化を引き起こします。我々はクラスタリング最適化の観点からルーターを検証し、潜在クラスターを最大限に特定する最適な特徴重みを導出します。これらの重みを用いて、特に各専門家クラスターごとに特徴のスケールを調整する重みのセットを計算し、よく分離されたクラスターを促進する適応変換空間でトークン-専門家のルーティング割り当てを行い、各トークンに最適な専門家の特定を助けます。この新規ルーターをAdaptive Clustering (AC)ルーターと呼びます。ACルーターはMoEモデルに３つの関連した利点をもたらします：1) 迅速な収束、2) データ汚染に対する高いロバストネス、3) 専門家が入力空間の意味的に異なる領域に特化することによる全体的な性能向上です。我々は、言語モデリングおよび画像認識タスクの多様なMoEバックボーンにACルーターを適用し、クリーンかつ汚染された設定の双方でベースラインルーティング手法に対する優位性を実証します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Stefan K. Nielsen

Rachel S. Y. Teo

Laziz U. Abdullaev

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

密集したクラスターが専門家を専門化する

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study