Key points are not available for this paper at this time.
大規模言語モデル(LLM)は困難なタスクで優れた性能を示しますが、しばしば膨大なメモリと計算資源を必要とします。LLMのパラメータ規模を削減する方法は研究のホットスポットとなっています。本研究では、トランスフォーマーのマルチヘッド自己注意(MHA)サブレイヤーが顕著な低ランク構造を示す一方で、フィードフォワードネットワーク(FFN)サブレイヤーはそうでないという重要な観察を行いました。これに基づき、低ランク行列近似と構造的プルーニング(LoRAP)を有機的に組み合わせた混合圧縮モデルを設計しました。MHAサブレイヤーには、低ランク特性を強化する入力活性化重み付き特異値分解法を提案します。さらに、MHAサブレイヤーの重み行列はランクの程度が異なることを発見し、これに応じて新たなパラメータ配分スキームを考案しました。FFNサブレイヤーには勾配を用いない構造的チャネルプルーニング法を提案します。プルーニング中、最も重要度が低い1%のパラメータが実際にはモデル性能において重要な役割を果たすという興味深い発見を得ました。ゼロショットパープレキシティとゼロショットタスク分類における広範な評価により、我々の提案が複数の圧縮比において従来の構造圧縮手法を上回ることが示されました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Guangyan Li
Yongqiang Tang
Wensheng Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Liら(Mon,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e6f2aeb6db64358766dae0 — DOI: https://doi.org/10.48550/arxiv.2404.09695
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: