October 27, 2024Open Access

AdapMoE：効率的なMoE推論のための適応感度ベース専門家ゲーティングと管理

Key Points

Key points are not available for this paper at this time.

Abstract

Mixture-of-Experts（MoE）モデルは、大規模言語モデル（LLM）の効率を、計算負荷を比例的に増加させることなく向上させるよう設計されています。しかし、スパースに活性化される専門家の管理によるオンデマンド読み込みの高いオーバーヘッドのため、エッジデバイスでの展開には依然として大きな課題があります。本論文では、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークであるAdapMoEを紹介します。AdapMoEはオンデマンド読み込みのオーバーヘッドを削減するための適応的専門家ゲーティングと管理を特徴とします。我々は、層とトークンにわたる専門家の読み込みの異質性を観察し、それに基づき、活性化される専門家の数を動的に調整する感度ベースの戦略を提案します。同時に、高度なプリフェッチングおよびキャッシュ管理技術も統合し、読み込みレイテンシをさらに削減しました。様々なプラットフォームでの包括的な評価を通じて、AdapMoEは既存技術を一貫して上回り、活性化専門家の平均数を25%削減し、精度劣化なく1.35倍の高速化を実現することを実証しています。コードはhttps://github.com/PKU-SEC-Lab/AdapMoEで利用可能です。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shuzhang Zhong

Ling Liang

Yuan Wang

Actions

Institutions

Peking University

Beijing Advanced Sciences and Innovation Center

Beijing Academy of Artificial Intelligence

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AdapMoE：効率的なMoE推論のための適応感度ベース専門家ゲーティングと管理

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider