What question did this study set out to answer?

Esta pesquisa visa melhorar o desempenho das técnicas de adaptação de baixa ordem para grandes modelos de linguagem em arquiteturas computacionais eficientes.

March 12, 2026Open Access

Adaptação de Baixa Ordem Consciente de Hardware para Grandes Modelos de Linguagem Baseada em Arquitetura Híbrida Compute-in-Memory

Key Points

Esta pesquisa visa melhorar o desempenho das técnicas de adaptação de baixa ordem para grandes modelos de linguagem em arquiteturas computacionais eficientes.
Propõe uma arquitetura híbrida compute-in-memory combinando RRAM e SRAM.
Desenvolve Adaptação de Baixa Ordem Consciente de Hardware (HaLoRA) para combater o ruído do RRAM.
Analisa teoricamente as trajetórias de otimização para melhorar a robustez em condições ruidosas.
Alcançou redução de cerca de 3% no custo energético comparado à GPU tradicional Nvidia A100.
Melhorou a pontuação média de desempenho em até 22,7 em múltiplas tarefas de raciocínio.
Manteve robustez contra vários tipos e níveis de ruído.

Abstract

A adaptação de baixa ordem (LoRA) é um método predominante de ajuste fino eficiente em parâmetros para adaptar grandes modelos de linguagem (LLMs) a tarefas específicas. Paralelamente, arquiteturas Compute-in-Memory (CIM) demonstram superior eficiência energética devido aos seus designs de computação paralela em nível de matriz na memória. Neste artigo, propomos a implantação dos LLMs ajustados com LoRA na arquitetura híbrida CIM (isto é, pesos pré-treinados em Memória Resistiva de Acesso Aleatório (RRAM) energeticamente eficiente e os ramos LoRA em Memória Estática de Acesso Aleatório (SRAM) livre de ruído), reduzindo o custo energético para cerca de 3% em comparação com a GPU Nvidia A100. Contudo, o ruído inerente do RRAM nos pesos armazenados leva simultaneamente à degradação do desempenho. Para resolver essa questão, projetamos um novo método de Adaptação de Baixa Ordem Consciente de Hardware (HaLoRA). A ideia central é treinar um ramo LoRA que seja robusto a tal ruído e, em seguida, implantá-lo na SRAM livre de ruído, enquanto o custo extra é negligenciável, já que os parâmetros das LoRAs são muito menores que os pesos pré-treinados (por exemplo, 0,15% para o modelo LLaMA-3.2 1B). Para aprimorar a robustez diante do ruído, analisamos teoricamente a discrepância entre as trajetórias de otimização do ramo LoRA sob condições ideais e ruidosas e ainda projetamos uma perda extra para minimizar o limite superior dessa discrepância. Portanto, podemos desfrutar tanto da eficiência energética quanto da acurácia durante a inferência. Experimentos de ajuste fino nas séries Qwen e LLaMA demonstram a eficácia do HaLoRA em múltiplas tarefas de raciocínio, alcançando melhorias de até 22,7 na pontuação média enquanto mantém a robustez contra vários tipos e níveis de ruído.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Taiqiang Wu

Chenchen Ding

Wei Zhou

Journals

ACM Transactions on Design Automation of Electronic Systems

Actions

Institutions

University of Hong Kong

Tsinghua University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Adaptação de Baixa Ordem Consciente de Hardware para Grandes Modelos de Linguagem Baseada em Arquitetura Híbrida Compute-in-Memory

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider