What question did this study set out to answer?

本研究旨在提升低秩适应技术在高效计算架构上对大型语言模型的性能表现。

March 12, 2026Open Access

基于混合计算内存架构的大型语言模型硬件感知低秩适应

Key Points

本研究旨在提升低秩适应技术在高效计算架构上对大型语言模型的性能表现。
提出一种结合RRAM和SRAM的混合计算内存架构。
开发硬件感知低秩适应（HaLoRA）以抵抗RRAM噪声。
理论分析优化轨迹以增强噪声条件下的鲁棒性。
实现了比传统Nvidia A100 GPU约3%的能量成本降低。
在多项推理任务中平均性能得分提升最多达22.7。
保持了对多种噪声类型和水平的鲁棒性。

Abstract

低秩适应（LoRA）是一种主要的参数高效微调方法，用于将大型语言模型（LLMs）适配到下游任务。与此同时，计算内存（CIM）架构因其阵列级并行的内存计算设计而展现出卓越的能效表现。本文提出在混合CIM架构上部署LoRA微调的LLMs（即预训练权重加载至能效较高的电阻式随机存取存储器（RRAM），而LoRA分支部署于无噪声的静态随机存取存储器（SRAM）），与Nvidia A100 GPU相比，能耗降低至约3%。然而，RRAM保存权重固有的噪声同时导致性能下降。为解决该问题，我们设计了一种新颖的硬件感知低秩适应（HaLoRA）方法。关键见解在于训练对该噪声具有鲁棒性的LoRA分支，并将其部署于无噪声的SRAM上，而由于LoRA参数远少于预训练权重（例如，LLaMA-3.2 1B模型仅占0.15%），额外成本可忽略。为提升对噪声的鲁棒性，我们理论分析了理想与含噪声条件下LoRA分支优化轨迹的差异，并设计了额外损失以最小化该差异的上界。因此，在推理过程中我们兼得能效与准确性。Qwen及LLaMA系列的微调实验证明HaLoRA在多种推理任务中的有效性，平均得分提升最高达22.7，同时在不同噪声类型及水平下保持鲁棒性。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Wu 等人（Mon,）研究了该问题。

www.synapsesocial.com/papers/69b25adb96eeacc4fcec8eca — DOI: https://doi.org/10.1145/3801559

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Fusion of memristor and digital compute-in-memory processing for energy-efficient edge computing· 2024 · 93 citations
34.8 A 22nm 16Mb Floating-Point ReRAM Compute-in-Memory Macro with 31.2TFLOPS/W for AI Edge Devices· 2024 · 39 citations
Stuck-at Fault Tolerance in RRAM Computing Systems· 2017 · 162 citations
DNN+NeuroSim: An End-to-End Benchmarking Framework for Compute-in-Memory Accelerators with Versatile Device Technologies

Social Feed

Authors

Taiqiang Wu

Chenchen Ding

Wei Zhou

Journals

ACM Transactions on Design Automation of Electronic Systems

Actions

Institutions

University of Hong Kong

Tsinghua University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

基于混合计算内存架构的大型语言模型硬件感知低秩适应

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion