A adaptação de baixa ordem (LoRA) é um método predominante de ajuste fino eficiente em parâmetros para adaptar grandes modelos de linguagem (LLMs) a tarefas específicas. Paralelamente, arquiteturas Compute-in-Memory (CIM) demonstram superior eficiência energética devido aos seus designs de computação paralela em nível de matriz na memória. Neste artigo, propomos a implantação dos LLMs ajustados com LoRA na arquitetura híbrida CIM (isto é, pesos pré-treinados em Memória Resistiva de Acesso Aleatório (RRAM) energeticamente eficiente e os ramos LoRA em Memória Estática de Acesso Aleatório (SRAM) livre de ruído), reduzindo o custo energético para cerca de 3% em comparação com a GPU Nvidia A100. Contudo, o ruído inerente do RRAM nos pesos armazenados leva simultaneamente à degradação do desempenho. Para resolver essa questão, projetamos um novo método de Adaptação de Baixa Ordem Consciente de Hardware (HaLoRA). A ideia central é treinar um ramo LoRA que seja robusto a tal ruído e, em seguida, implantá-lo na SRAM livre de ruído, enquanto o custo extra é negligenciável, já que os parâmetros das LoRAs são muito menores que os pesos pré-treinados (por exemplo, 0,15% para o modelo LLaMA-3.2 1B). Para aprimorar a robustez diante do ruído, analisamos teoricamente a discrepância entre as trajetórias de otimização do ramo LoRA sob condições ideais e ruidosas e ainda projetamos uma perda extra para minimizar o limite superior dessa discrepância. Portanto, podemos desfrutar tanto da eficiência energética quanto da acurácia durante a inferência. Experimentos de ajuste fino nas séries Qwen e LLaMA demonstram a eficácia do HaLoRA em múltiplas tarefas de raciocínio, alcançando melhorias de até 22,7 na pontuação média enquanto mantém a robustez contra vários tipos e níveis de ruído.
Building similarity graph...
Analyzing shared references across papers
Loading...
Taiqiang Wu
Chenchen Ding
Wei Zhou
ACM Transactions on Design Automation of Electronic Systems
University of Hong Kong
Tsinghua University
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/69b25adb96eeacc4fcec8eca — DOI: https://doi.org/10.1145/3801559
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: