May 23, 2024Open Access

動的エキスパート混合モデル：効率的なTransformerモデルのための自動調整アプローチ

Key Points

Key points are not available for this paper at this time.

Abstract

疎なエキスパート混合モデル（SMoE）は、Transformerベースの基盤モデルの訓練および推論効率を向上させるために広く用いられており、有望な結果を示しています。しかし、SMoEの性能は、エキスパートの数や活性化するエキスパートの数（top-kと呼ばれる）などのハイパーパラメータの選択に大きく依存しており、さまざまなハイパーパラメータ構成を探索するための大規模なモデル訓練によって著しい計算負荷が生じます。これに対処するために、我々は動的エキスパート混合モデル（DynMoE）手法を提案します。DynMoEは、（1）各トークンが自動的に活性化するエキスパートの数を決定できる新しいゲーティング手法、（2）訓練中にエキスパート数を自動適応的に調整するプロセスを組み込んでいます。ビジョン、言語、およびビジョン・言語タスクにわたる幅広い数値実験により、本手法がパラメータの活性化を削減しつつ、ビジョンタスクと言語タスクでGMoEと競合する性能を、ビジョン・言語タスクでMoE-LLaVAと競合する性能を達成する有効性を示しています。我々のコードは https://github.com/LINs-lab/DynMoE にて公開しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yongxin Guo

Zhenglin Cheng

Xiaoying Tang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

動的エキスパート混合モデル：効率的なTransformerモデルのための自動調整アプローチ

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider