Los puntos clave no están disponibles para este artículo en este momento.
Las técnicas de ajuste eficientes en parámetros (PEFT) como la adaptación de bajo rango (LoRA) ofrecen eficiencia en el entrenamiento de modelos de lenguaje grandes, pero su impacto en el rendimiento del modelo sigue siendo limitado. Los esfuerzos recientes integran LoRA y Mixture-of-Experts (MoE) para mejorar el rendimiento de los métodos PEFT. A pesar de resultados prometedores, la investigación para mejorar la eficiencia de LoRA con MoE aún está en una etapa inicial. Estudios recientes han mostrado que los expertos en la arquitectura MoE tienen diferentes fortalezas y también exhiben cierta redundancia. ¿Aplica esta afirmación también a MoE eficiente en parámetros? En este trabajo, presentamos un nuevo método MoE eficiente en parámetros, MoE-LoRA con asignación de expertos por capa (MoLA) para modelos basados en Transformer, donde cada capa del modelo tiene la flexibilidad de emplear un número variable de expertos LoRA. Investigamos varias arquitecturas con configuraciones de expertos por capa variables. Experimentos en seis benchmarks reconocidos de PNL y QA de sentido común demuestran que MoLA alcanza un desempeño igual o superior comparado con todas las líneas base. Encontramos que asignar más expertos LoRA a capas superiores mejora aún más la efectividad de modelos con un número determinado de expertos en total. Con muchos menos parámetros, esta estrategia de asignación supera la configuración con el mismo número de expertos en cada capa. Este trabajo puede usarse ampliamente como un enfoque plug-and-play de ajuste eficiente en parámetros para varias aplicaciones. El código está disponible en https: //github. com/GCYZSL/MoLA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chongyang Gao
Kezhen Chen
Jinmeng Rao
Building similarity graph...
Analyzing shared references across papers
Loading...
Gao et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e79572b6db643587706275 — DOI: https://doi.org/10.48550/arxiv.2402.08562
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: