Key points are not available for this paper at this time.
Mixture-of-Experts(MoE)モデルは、大規模言語モデル(LLM)の効率を、計算負荷を比例的に増加させることなく向上させるよう設計されています。しかし、スパースに活性化される専門家の管理によるオンデマンド読み込みの高いオーバーヘッドのため、エッジデバイスでの展開には依然として大きな課題があります。本論文では、効率的なMoE推論のためのアルゴリズムとシステムの共同設計フレームワークであるAdapMoEを紹介します。AdapMoEはオンデマンド読み込みのオーバーヘッドを削減するための適応的専門家ゲーティングと管理を特徴とします。我々は、層とトークンにわたる専門家の読み込みの異質性を観察し、それに基づき、活性化される専門家の数を動的に調整する感度ベースの戦略を提案します。同時に、高度なプリフェッチングおよびキャッシュ管理技術も統合し、読み込みレイテンシをさらに削減しました。様々なプラットフォームでの包括的な評価を通じて、AdapMoEは既存技術を一貫して上回り、活性化専門家の平均数を25%削減し、精度劣化なく1.35倍の高速化を実現することを実証しています。コードはhttps://github.com/PKU-SEC-Lab/AdapMoEで利用可能です。
Building similarity graph...
Analyzing shared references across papers
Loading...
Shuzhang Zhong
Ling Liang
Yuan Wang
Peking University
Beijing Advanced Sciences and Innovation Center
Beijing Academy of Artificial Intelligence
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhongら(Sun,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e55b65e2b3180350ef90ad — DOI: https://doi.org/10.1145/3676536.3676741
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: