低秩适应(LoRA)是一种主要的参数高效微调方法,用于将大型语言模型(LLMs)适配到下游任务。与此同时,计算内存(CIM)架构因其阵列级并行的内存计算设计而展现出卓越的能效表现。本文提出在混合CIM架构上部署LoRA微调的LLMs(即预训练权重加载至能效较高的电阻式随机存取存储器(RRAM),而LoRA分支部署于无噪声的静态随机存取存储器(SRAM)),与Nvidia A100 GPU相比,能耗降低至约3%。然而,RRAM保存权重固有的噪声同时导致性能下降。为解决该问题,我们设计了一种新颖的硬件感知低秩适应(HaLoRA)方法。关键见解在于训练对该噪声具有鲁棒性的LoRA分支,并将其部署于无噪声的SRAM上,而由于LoRA参数远少于预训练权重(例如,LLaMA-3.2 1B模型仅占0.15%),额外成本可忽略。为提升对噪声的鲁棒性,我们理论分析了理想与含噪声条件下LoRA分支优化轨迹的差异,并设计了额外损失以最小化该差异的上界。因此,在推理过程中我们兼得能效与准确性。Qwen及LLaMA系列的微调实验证明HaLoRA在多种推理任务中的有效性,平均得分提升最高达22.7,同时在不同噪声类型及水平下保持鲁棒性。
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu 等人(Mon,)研究了该问题。
www.synapsesocial.com/papers/69b25adb96eeacc4fcec8eca — DOI: https://doi.org/10.1145/3801559
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Taiqiang Wu
Chenchen Ding
Wei Zhou
ACM Transactions on Design Automation of Electronic Systems
University of Hong Kong
Tsinghua University
Building similarity graph...
Analyzing shared references across papers
Loading...