What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

MoLAE: Mezcla de Expertos Latentes para Modelos de Lenguaje con Eficiencia Paramétrica

Puntos clave

MoLAE reduce significativamente los requerimientos de recursos mientras preserva el rendimiento de los grandes modelos de lenguaje.
Esta arquitectura optimiza el modelo de mezcla de expertos para mejorar la eficiencia en parámetros mediante la reducción de la carga computacional.
Un algoritmo sistemático de dos pasos facilita la transformación de la arquitectura MoE estándar a MoLAE, potenciando capacidades extensas del modelo.
El análisis teórico respalda la efectividad de MoLAE, mostrando mejoras en diversas dimensiones de eficiencia mientras se mantienen las capacidades existentes.

Resumen

La Mezcla de Expertos (MoE) se ha convertido en un paradigma arquitectónico clave para escalar de manera eficiente los Grandes Modelos de Lenguaje (LLMs) activando selectivamente un subconjunto de parámetros para cada token de entrada. Sin embargo, las arquitecturas estándar de MoE enfrentan desafíos significativos, incluyendo un alto consumo de memoria y sobrecarga de comunicación durante el entrenamiento distribuido. En este artículo, presentamos la Mezcla de Expertos Latentes (MoLAE), una parametrización novedosa que aborda estas limitaciones al reformular las operaciones de expertos mediante una proyección compartida en un espacio latente de menor dimensión, seguida de transformaciones específicas para cada experto. Este enfoque factorado reduce sustancialmente el número de parámetros y los requisitos computacionales, especialmente en los LLMs existentes donde las dimensiones ocultas superan significativamente las dimensiones intermedias de MoE. Proporcionamos un marco matemático riguroso para transformar modelos MoE preentrenados en la arquitectura MoLAE, caracterizando las condiciones para una factorización óptima y desarrollando un algoritmo sistemático de dos pasos para esta conversión. Nuestro análisis teórico integral demuestra que MoLAE mejora significativamente la eficiencia en múltiples dimensiones mientras preserva las capacidades del modelo. Los resultados experimentales confirman que MoLAE logra un rendimiento comparable al MoE estándar con requerimientos de recursos sustancialmente reducidos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zehua Liu

Han Wu

Ruifeng She

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoLAE: Mezcla de Expertos Latentes para Modelos de Lenguaje con Eficiencia Paramétrica

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider