Los puntos clave no están disponibles para este artículo en este momento.
La adaptación de bajo rango es un método popular de afinación fina eficiente en parámetros para grandes modelos de lenguaje. En este artículo, analizamos el impacto de la actualización de bajo rango, tal como se implementa en LoRA. Nuestros hallazgos sugieren que el mecanismo de actualización de bajo rango puede limitar la capacidad de los LLM para aprender y memorizar eficazmente nuevos conocimientos. Inspirados por esta observación, proponemos un nuevo método llamado MoRA, que emplea una matriz cuadrada para lograr una actualización de rango alto manteniendo el mismo número de parámetros entrenables. Para conseguirlo, introducimos los operadores correspondientes no paramétricos para reducir la dimensión de entrada y aumentar la dimensión de salida para la matriz cuadrada. Además, estos operadores aseguran que el peso pueda ser fusionado de nuevo en los LLM, lo que permite que nuestro método se pueda desplegar como LoRA. Realizamos una evaluación exhaustiva de nuestro método en cinco tareas: afinación por instrucciones, razonamiento matemático, preentrenamiento continuo, memoria y preentrenamiento. Nuestro método supera a LoRA en tareas intensivas en memoria y logra un rendimiento comparable en otras tareas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ting Jiang
Shaohan Huang
Shengyue Luo
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiang et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e694aeb6db64358761ac8a — DOI: https://doi.org/10.48550/arxiv.2405.12130