What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

Edición eficiente de modelos mezcla de expertos con expertos comprimidos

Puntos clave

El uso de expertos comprimidos puede reducir los parámetros activos en más del 30% manteniendo el rendimiento del modelo.
Los experimentos en Phi-MoE y OLMoE muestran que los expertos comprimidos recuperan más del 90% del rendimiento completo del experto en variadas tareas.
Menos expertos activados reducen costos computacionales, indicando un enfoque equilibrado para la escalabilidad del modelo.
Este método proporciona una solución práctica para desplegar modelos grandes en entornos con recursos limitados.

Resumen

Los modelos mezcla de expertos (MoE) se han convertido en un enfoque clave para escalar modelos de lenguaje grandes de manera eficiente activando solo un subconjunto de expertos durante el entrenamiento y la inferencia. Típicamente, el número de expertos activados presenta un compromiso: menos expertos reducen los costos computacionales, mientras que más expertos mejoran el rendimiento. Estudios recientes revelan que no todos los expertos activados contribuyen por igual al rendimiento del modelo, con algunos proporcionando utilidad mínima, particularmente al ajustar finamente modelos MoE preentrenados para tareas especializadas posteriores. La coexistencia de parámetros significativos y redundantes en los expertos nos brinda la oportunidad de reducir el número de expertos activados mientras se mantiene el rendimiento del modelo. En este trabajo, proponemos el concepto de expertos comprimidos, módulos livianos que sirven como representaciones compactas de expertos completos. Nuestro enfoque conserva los expertos más importantes mientras reemplaza otros expertos auxiliares activados con expertos comprimidos. La reducción de parámetros activos disminuye significativamente los costos de inferencia a la vez que se logra un rendimiento comparable. Experimentos extensivos en modelos incluyendo Phi-MoE y OLMoE demuestran que los expertos comprimidos recuperan más del 90% del rendimiento completo del experto en diversas tareas a la vez que reducen más del 30% de parámetros activos y ahorran un 20% en costos de inferencia. Este enfoque permite un despliegue eficiente de modelos MoE en entornos con recursos limitados y facilita la escalación a modelos más grandes con una sobrecarga manejable. Nuestro código está disponible en https://github.com/yifei-he/Compressed-Experts.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yifei He

Yang Liu

Liang Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Edición eficiente de modelos mezcla de expertos con expertos comprimidos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider