What question did this study set out to answer?

効率的な計算アーキテクチャ上で大規模言語モデルの低ランク適応手法の性能を改善することを目的とする研究。

March 12, 2026Open Access

ハードウェア認識型低ランク適応による大規模言語モデルのハイブリッドコンピュートインメモリアーキテクチャ基盤

Key Points

効率的な計算アーキテクチャ上で大規模言語モデルの低ランク適応手法の性能を改善することを目的とする研究。
RRAMとSRAMを組み合わせたハイブリッドコンピュートインメモリアーキテクチャを提案。
RRAMのノイズに対抗するためにハードウェア認識型低ランク適応（HaLoRA）を開発。
ノイズ環境下でのロバスト性向上のために最適化軌道を理論的に解析。
従来のNvidia A100 GPUに比べて約3%のエネルギーコスト削減を達成。
複数の推論タスクで平均性能スコアを最大22.7向上。
様々なノイズタイプおよびレベルに対してロバスト性を維持。

Abstract

低ランク適応（LoRA）は、大規模言語モデル（LLMs）を下流タスクに適応させるための主要なパラメータ効率の良いファインチューニング手法です。一方、Compute-in-Memory（CIM）アーキテクチャは、その配列レベルの並列インメモリ計算設計により卓越したエネルギー効率を示しています。本論文では、LoRAでファインチューニングされたLLMsをハイブリッドCIMアーキテクチャ（すなわち事前学習済み重みをエネルギー効率の良い抵抗性ランダムアクセスメモリ（RRAM）へ、LoRAブランチをノイズフリーの静的RAM（SRAM）へ）に展開することを提案し、Nvidia A100 GPUと比較してエネルギーコストを約3%に削減しました。しかし、保存した重みにおけるRRAMの固有のノイズは同時に性能劣化を引き起こします。この問題に対処するために、新しいハードウェア認識型低ランク適応（HaLoRA）手法を設計しました。主要な着想は、そのようなノイズに耐性のあるLoRAブランチを訓練し、それをノイズフリーのSRAM上に展開することです。追加コストは、LoRAパラメータが事前学習済み重みよりはるかに少ないため（例：LLaMA-3.2 1Bモデルでは0.15%）、無視できる程度です。ノイズ耐性を向上させるために、理想的およびノイズ条件下のLoRAブランチの最適化軌道の差異を理論的に分析し、この差の上限を最小化する追加損失を設計しました。したがって、推論時にエネルギー効率と精度の両方を享受できます。QwenおよびLLaMAシリーズのファインチューニング実験は、HaLoRAの複数の推論タスクにわたる有効性を示し、平均スコアを最大22.7ポイント改善し、様々なノイズタイプおよびノイズレベルに対する耐性を維持しました。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Taiqiang Wu

Chenchen Ding

Wei Zhou

Journals

ACM Transactions on Design Automation of Electronic Systems

Actions

Institutions

University of Hong Kong

Tsinghua University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ハードウェア認識型低ランク適応による大規模言語モデルのハイブリッドコンピュートインメモリアーキテクチャ基盤

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider