La adaptación de bajo rango (LoRA) es un método predominante y eficiente en parámetros para el ajuste fino de modelos de lenguaje grandes (LLMs) en tareas posteriores. Mientras tanto, las arquitecturas de Cómputo en Memoria (CIM) muestran una eficiencia energética superior debido a sus diseños de cómputo paralelo a nivel de matriz en memoria. En este artículo, proponemos desplegar los LLMs afinados con LoRA en la arquitectura híbrida CIM (es decir, pesos preentrenados en Memoria de Acceso Aleatorio Resistiva energéticamente eficiente (RRAM) y ramas LoRA en Memoria de Acceso Aleatorio Estática sin ruido (SRAM)), reduciendo el costo energético a alrededor del 3% comparado con la GPU Nvidia A100. Sin embargo, el ruido inherente de RRAM en los pesos guardados conduce simultáneamente a una degradación del rendimiento. Para abordar este problema, diseñamos un método novedoso llamado Adaptación de Bajo Rango Consciente del Hardware (HaLoRA). La idea clave es entrenar una rama LoRA que sea robusta frente a dicho ruido y luego desplegarla en SRAM sin ruido, mientras que el costo adicional es despreciable ya que los parámetros de LoRA son mucho menos que los pesos preentrenados (por ejemplo, 0.15% para el modelo LLaMA-3.2 1B). Para mejorar la robustez al ruido, analizamos teóricamente la brecha entre las trayectorias de optimización de la rama LoRA bajo condiciones ideales y ruidosas y diseñamos una pérdida adicional para minimizar el límite superior de esta brecha. Por lo tanto, podemos disfrutar tanto de eficiencia energética como de precisión durante la inferencia. Experimentos afinando las series Qwen y LLaMA demuestran la efectividad de HaLoRA en múltiples tareas de razonamiento, logrando hasta una mejora de 22.7 en la puntuación promedio mientras mantienen la robustez ante varios tipos y niveles de ruido.
Building similarity graph...
Analyzing shared references across papers
Loading...
Taiqiang Wu
Chenchen Ding
Wei Zhou
ACM Transactions on Design Automation of Electronic Systems
University of Hong Kong
Tsinghua University
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/69b25adb96eeacc4fcec8eca — DOI: https://doi.org/10.1145/3801559
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: