Los modelos mezcla de expertos (MoE) se han convertido en un enfoque clave para escalar modelos de lenguaje grandes de manera eficiente activando solo un subconjunto de expertos durante el entrenamiento y la inferencia. Típicamente, el número de expertos activados presenta un compromiso: menos expertos reducen los costos computacionales, mientras que más expertos mejoran el rendimiento. Estudios recientes revelan que no todos los expertos activados contribuyen por igual al rendimiento del modelo, con algunos proporcionando utilidad mínima, particularmente al ajustar finamente modelos MoE preentrenados para tareas especializadas posteriores. La coexistencia de parámetros significativos y redundantes en los expertos nos brinda la oportunidad de reducir el número de expertos activados mientras se mantiene el rendimiento del modelo. En este trabajo, proponemos el concepto de expertos comprimidos, módulos livianos que sirven como representaciones compactas de expertos completos. Nuestro enfoque conserva los expertos más importantes mientras reemplaza otros expertos auxiliares activados con expertos comprimidos. La reducción de parámetros activos disminuye significativamente los costos de inferencia a la vez que se logra un rendimiento comparable. Experimentos extensivos en modelos incluyendo Phi-MoE y OLMoE demuestran que los expertos comprimidos recuperan más del 90% del rendimiento completo del experto en diversas tareas a la vez que reducen más del 30% de parámetros activos y ahorran un 20% en costos de inferencia. Este enfoque permite un despliegue eficiente de modelos MoE en entornos con recursos limitados y facilita la escalación a modelos más grandes con una sobrecarga manejable. Nuestro código está disponible en https://github.com/yifei-he/Compressed-Experts.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yifei He
Yang Liu
Liang Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
He et al. (Sat,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68ecc715d1cc7436f7d18b3c — DOI: https://doi.org/10.48550/arxiv.2503.00634
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: