February 13, 2024Open Access

Las capas superiores necesitan más expertos LoRA

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las técnicas de ajuste eficientes en parámetros (PEFT) como la adaptación de bajo rango (LoRA) ofrecen eficiencia en el entrenamiento de modelos de lenguaje grandes, pero su impacto en el rendimiento del modelo sigue siendo limitado. Los esfuerzos recientes integran LoRA y Mixture-of-Experts (MoE) para mejorar el rendimiento de los métodos PEFT. A pesar de resultados prometedores, la investigación para mejorar la eficiencia de LoRA con MoE aún está en una etapa inicial. Estudios recientes han mostrado que los expertos en la arquitectura MoE tienen diferentes fortalezas y también exhiben cierta redundancia. ¿Aplica esta afirmación también a MoE eficiente en parámetros? En este trabajo, presentamos un nuevo método MoE eficiente en parámetros, MoE-LoRA con asignación de expertos por capa (MoLA) para modelos basados en Transformer, donde cada capa del modelo tiene la flexibilidad de emplear un número variable de expertos LoRA. Investigamos varias arquitecturas con configuraciones de expertos por capa variables. Experimentos en seis benchmarks reconocidos de PNL y QA de sentido común demuestran que MoLA alcanza un desempeño igual o superior comparado con todas las líneas base. Encontramos que asignar más expertos LoRA a capas superiores mejora aún más la efectividad de modelos con un número determinado de expertos en total. Con muchos menos parámetros, esta estrategia de asignación supera la configuración con el mismo número de expertos en cada capa. Este trabajo puede usarse ampliamente como un enfoque plug-and-play de ajuste eficiente en parámetros para varias aplicaciones. El código está disponible en https: //github. com/GCYZSL/MoLA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chongyang Gao

Kezhen Chen

Jinmeng Rao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Las capas superiores necesitan más expertos LoRA

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider