Key points are not available for this paper at this time.
疎なエキスパート混合モデル(SMoE)は、Transformerベースの基盤モデルの訓練および推論効率を向上させるために広く用いられており、有望な結果を示しています。しかし、SMoEの性能は、エキスパートの数や活性化するエキスパートの数(top-kと呼ばれる)などのハイパーパラメータの選択に大きく依存しており、さまざまなハイパーパラメータ構成を探索するための大規模なモデル訓練によって著しい計算負荷が生じます。これに対処するために、我々は動的エキスパート混合モデル(DynMoE)手法を提案します。DynMoEは、(1)各トークンが自動的に活性化するエキスパートの数を決定できる新しいゲーティング手法、(2)訓練中にエキスパート数を自動適応的に調整するプロセスを組み込んでいます。ビジョン、言語、およびビジョン・言語タスクにわたる幅広い数値実験により、本手法がパラメータの活性化を削減しつつ、ビジョンタスクと言語タスクでGMoEと競合する性能を、ビジョン・言語タスクでMoE-LLaVAと競合する性能を達成する有効性を示しています。我々のコードは https://github.com/LINs-lab/DynMoE にて公開しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yongxin Guo
Zhenglin Cheng
Xiaoying Tang
Building similarity graph...
Analyzing shared references across papers
Loading...
Guoら(Thu,)はこの問題について研究しました。
www.synapsesocial.com/papers/68e68cfdb6db643587614c6b — DOI: https://doi.org/10.48550/arxiv.2405.14297
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: