Key points are not available for this paper at this time.
事後訓練量子化(PTQ)は、大規模言語モデル(LLM)におけるメモリ消費と計算コストを軽減する有望な技術として浮上しています。しかしながら、さまざまな量子化スキーム、モデルファミリー、および量子化ビット精度に関する体系的な検証は文献に存在しません。本論文では、丸め最近接(RTN)、GPTQ、ZeroQuantおよびそのバリアントなど多様な方法を用いて、重量のみ、活性化のみ、重量および活性化の量子化に対するPTQの影響を調査し、これらの要因を包括的に分析します。パラメータが125Mから176Bまでの2つの異なるモデルファミリーにこれらの方法を適用しました。我々の貢献は次の通りです:(1)感度分析により、一般に活性化の量子化は重量量子化よりも影響を受けやすく、活性化の量子化に関しては小規模モデルが大規模モデルより優れる場合が多いことを明らかにしました;(2)精度への影響を最小限に抑えつつモデルサイズ削減を最適化するために既存のPTQ手法を評価および比較し、INT4-重量またはINT4-重量およびINT8-活性化のいずれかの量子化でオリジナルモデルの品質を達成できる手法は現状存在しないことを示しました;(3)これらの洞察に基づき、低ランク行列を用いてモデル品質の回復を強化しつつモデルサイズの増加を最小限に抑える最適化手法Low-Rank Compensation(LoRC)を提案しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhewei Yao
Xiaoxia Wu
Cheng Li
Microsoft Research (United Kingdom)
Building similarity graph...
Analyzing shared references across papers
Loading...
Yaoら(Sun,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e72954b6db6435876a2f71 — DOI: https://doi.org/10.1609/aaai.v38i17.29908