Los puntos clave no están disponibles para este artículo en este momento.
La Adaptación de Bajo Rango (LoRA) se ha convertido en uno de los métodos más adoptados para el Afinamiento Eficiente en Parámetros (PEFT) de Grandes Modelos de Lenguaje (LLMs). LoRA reduce el número de parámetros entrenables y el uso de memoria mientras logra un desempeño comparable al afinamiento completo. Nuestro objetivo es evaluar la viabilidad de entrenar y servir LLMs afinados con LoRA en aplicaciones del mundo real. Primero, medimos la calidad de LLMs afinados con adaptadores de bajo rango cuantificados en 10 modelos base y 31 tareas para un total de 310 modelos. Encontramos que los modelos afinados con LoRA de 4 bits superan a los modelos base por 34 puntos y a GPT-4 por 10 puntos en promedio. Segundo, investigamos los modelos base más efectivos para el afinamiento y evaluamos las capacidades correlativas y predictivas de heurísticas de complejidad de tareas para pronosticar los resultados del afinamiento. Finalmente, evaluamos la latencia y las capacidades de concurrencia de LoRAX, un servidor de inferencia Multi-LoRA de código abierto que facilita el despliegue de múltiples modelos afinados con LoRA en una sola GPU usando pesos de modelo base compartidos y carga dinámica de adaptadores. LoRAX impulsa LoRA Land, una aplicación web que aloja 25 LLMs Mistral-7B afinados con LoRA en una sola GPU NVIDIA A100 con 80GB de memoria. LoRA Land destaca la calidad y rentabilidad de emplear múltiples LLMs especializados sobre un solo LLM de propósito general.
Building similarity graph...
Analyzing shared references across papers
Loading...
Justin Zhao
Timothy C. Wang
Wael Abid
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6d055b6db64358764dff2 — DOI: https://doi.org/10.48550/arxiv.2405.00732
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: