La Mezcla de Expertos (MoE) se ha convertido en un paradigma arquitectónico clave para escalar de manera eficiente los Grandes Modelos de Lenguaje (LLMs) activando selectivamente un subconjunto de parámetros para cada token de entrada. Sin embargo, las arquitecturas estándar de MoE enfrentan desafíos significativos, incluyendo un alto consumo de memoria y sobrecarga de comunicación durante el entrenamiento distribuido. En este artículo, presentamos la Mezcla de Expertos Latentes (MoLAE), una parametrización novedosa que aborda estas limitaciones al reformular las operaciones de expertos mediante una proyección compartida en un espacio latente de menor dimensión, seguida de transformaciones específicas para cada experto. Este enfoque factorado reduce sustancialmente el número de parámetros y los requisitos computacionales, especialmente en los LLMs existentes donde las dimensiones ocultas superan significativamente las dimensiones intermedias de MoE. Proporcionamos un marco matemático riguroso para transformar modelos MoE preentrenados en la arquitectura MoLAE, caracterizando las condiciones para una factorización óptima y desarrollando un algoritmo sistemático de dos pasos para esta conversión. Nuestro análisis teórico integral demuestra que MoLAE mejora significativamente la eficiencia en múltiples dimensiones mientras preserva las capacidades del modelo. Los resultados experimentales confirman que MoLAE logra un rendimiento comparable al MoE estándar con requerimientos de recursos sustancialmente reducidos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zehua Liu
Han Wu
Ruifeng She
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Sat,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68da58d1c1728099cfd10e9b — DOI: https://doi.org/10.48550/arxiv.2503.23100
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: