Key points are not available for this paper at this time.
大規模モデルのサイズの急速な増大は、GPUメモリの拡張速度をはるかに上回っています。このギャップを埋めるために、遺伝子型と表現型の簡潔な関係性に着想を得て、モデル圧縮の問題をパラメータ表現の課題に転換し、いわゆるハイパー圧縮を提案します。ハイパー圧縮は、対象ネットワークのパラメータを表現するためにハイパーファンクションを使用し、特にここでのハイパーファンクションは、低次元の動的システムが最終的に高次元空間を満たすことができるかどうかという問題に関連するエルゴード理論に基づいて設計されています。経験的に、提案したハイパー圧縮は以下の利点を有します:1)好ましい圧縮率;2)事後の再学習不要;3)許容可能な推論時間;4)短い圧縮時間。LLaMA2-7Bを1時間で圧縮し、再学習なしでint4量子化に近い性能を達成し、性能低下は1\%未満です。本研究は、スケーリング則とハードウェアのアップグレード停滞の調和に向けて、モデル圧縮分野を活性化する可能性を秘めています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Fenglei Fan
Juntong Fan
Dayang Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Fanら(Sat)がこの問題を研究しました。
www.synapsesocial.com/papers/68e5a2bab6db64358753cea8 — DOI: https://doi.org/10.48550/arxiv.2409.00592
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: