What question did this study set out to answer?

Esta investigación tiene como objetivo mejorar el rendimiento de las técnicas de adaptación de bajo rango para modelos de lenguaje grandes en arquitecturas de computación eficientes.

March 12, 2026Open Access

Adaptación de Bajo Rango Consciente del Hardware para Modelos de Lenguaje Grandes Basada en Arquitectura Híbrida de Cómputo en Memoria

Puntos clave

Esta investigación tiene como objetivo mejorar el rendimiento de las técnicas de adaptación de bajo rango para modelos de lenguaje grandes en arquitecturas de computación eficientes.
Proponer una arquitectura híbrida de cómputo en memoria que combina RRAM y SRAM.
Desarrollar Adaptación de Bajo Rango Consciente del Hardware (HaLoRA) para contrarrestar el ruido de RRAM.
Analizar teóricamente las trayectorias de optimización para mejorar la robustez bajo condiciones ruidosas.
Logró una reducción del costo energético de aproximadamente 3% en comparación con la GPU Nvidia A100 tradicional.
Mejoró la puntuación promedio de rendimiento hasta en 22.7 en múltiples tareas de razonamiento.
Mantuvo robustez contra varios tipos y niveles de ruido.

Resumen

La adaptación de bajo rango (LoRA) es un método predominante y eficiente en parámetros para el ajuste fino de modelos de lenguaje grandes (LLMs) en tareas posteriores. Mientras tanto, las arquitecturas de Cómputo en Memoria (CIM) muestran una eficiencia energética superior debido a sus diseños de cómputo paralelo a nivel de matriz en memoria. En este artículo, proponemos desplegar los LLMs afinados con LoRA en la arquitectura híbrida CIM (es decir, pesos preentrenados en Memoria de Acceso Aleatorio Resistiva energéticamente eficiente (RRAM) y ramas LoRA en Memoria de Acceso Aleatorio Estática sin ruido (SRAM)), reduciendo el costo energético a alrededor del 3% comparado con la GPU Nvidia A100. Sin embargo, el ruido inherente de RRAM en los pesos guardados conduce simultáneamente a una degradación del rendimiento. Para abordar este problema, diseñamos un método novedoso llamado Adaptación de Bajo Rango Consciente del Hardware (HaLoRA). La idea clave es entrenar una rama LoRA que sea robusta frente a dicho ruido y luego desplegarla en SRAM sin ruido, mientras que el costo adicional es despreciable ya que los parámetros de LoRA son mucho menos que los pesos preentrenados (por ejemplo, 0.15% para el modelo LLaMA-3.2 1B). Para mejorar la robustez al ruido, analizamos teóricamente la brecha entre las trayectorias de optimización de la rama LoRA bajo condiciones ideales y ruidosas y diseñamos una pérdida adicional para minimizar el límite superior de esta brecha. Por lo tanto, podemos disfrutar tanto de eficiencia energética como de precisión durante la inferencia. Experimentos afinando las series Qwen y LLaMA demuestran la efectividad de HaLoRA en múltiples tareas de razonamiento, logrando hasta una mejora de 22.7 en la puntuación promedio mientras mantienen la robustez ante varios tipos y niveles de ruido.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Feed social

Authors

Taiqiang Wu

Chenchen Ding

Wei Zhou

Journals

ACM Transactions on Design Automation of Electronic Systems

Actions

Institutions

University of Hong Kong

Tsinghua University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Adaptación de Bajo Rango Consciente del Hardware para Modelos de Lenguaje Grandes Basada en Arquitectura Híbrida de Cómputo en Memoria

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Feed social

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider