低ランク適応(LoRA)は、大規模言語モデル(LLMs)を下流タスクに適応させるための主要なパラメータ効率の良いファインチューニング手法です。一方、Compute-in-Memory(CIM)アーキテクチャは、その配列レベルの並列インメモリ計算設計により卓越したエネルギー効率を示しています。本論文では、LoRAでファインチューニングされたLLMsをハイブリッドCIMアーキテクチャ(すなわち事前学習済み重みをエネルギー効率の良い抵抗性ランダムアクセスメモリ(RRAM)へ、LoRAブランチをノイズフリーの静的RAM(SRAM)へ)に展開することを提案し、Nvidia A100 GPUと比較してエネルギーコストを約3%に削減しました。しかし、保存した重みにおけるRRAMの固有のノイズは同時に性能劣化を引き起こします。この問題に対処するために、新しいハードウェア認識型低ランク適応(HaLoRA)手法を設計しました。主要な着想は、そのようなノイズに耐性のあるLoRAブランチを訓練し、それをノイズフリーのSRAM上に展開することです。追加コストは、LoRAパラメータが事前学習済み重みよりはるかに少ないため(例:LLaMA-3.2 1Bモデルでは0.15%)、無視できる程度です。ノイズ耐性を向上させるために、理想的およびノイズ条件下のLoRAブランチの最適化軌道の差異を理論的に分析し、この差の上限を最小化する追加損失を設計しました。したがって、推論時にエネルギー効率と精度の両方を享受できます。QwenおよびLLaMAシリーズのファインチューニング実験は、HaLoRAの複数の推論タスクにわたる有効性を示し、平均スコアを最大22.7ポイント改善し、様々なノイズタイプおよびノイズレベルに対する耐性を維持しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Taiqiang Wu
Chenchen Ding
Wei Zhou
ACM Transactions on Design Automation of Electronic Systems
University of Hong Kong
Tsinghua University
Building similarity graph...
Analyzing shared references across papers
Loading...
Wuら(Mon,)がこの問題を研究しました。
www.synapsesocial.com/papers/69b25adb96eeacc4fcec8eca — DOI: https://doi.org/10.1145/3801559
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: