What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

Esquema de balanceo de carga basado en peso adaptativo-experto para el enrutamiento dinámico de MoE

Puntos clave

El método propuesto reduce la desviación estándar de carga de 12.25 a 1.18 en MNLI, mejorando el rendimiento.
Esta estrategia de enrutamiento dinámico ajusta los pesos de los expertos después de cada paso para equilibrar la carga de manera efectiva.
Los experimentos en benchmarks de Comprensión del Lenguaje Natural indican una precisión comparable al enrutamiento top-2.
El enfoque mitiga el desequilibrio de carga directamente a nivel de enrutamiento, evitando problemas relacionados con los gradientes.

Resumen

El desequilibrio de carga es un importante cuello de botella en el rendimiento durante el entrenamiento de modelos mezcla de expertos (MoE), ya que las cargas desequilibradas en los expertos pueden provocar un colapso del enrutamiento. La mayoría de los enfoques existentes abordan este problema mediante la introducción de funciones de pérdida auxiliares para equilibrar la carga; sin embargo, los hiperparámetros dentro de estas funciones de pérdida a menudo necesitan ajustarse para diferentes tareas. Además, aumentar el número de expertos activados tiende a agravar el desequilibrio de carga, mientras que fijar el número de activaciones puede reducir la confianza del modelo para manejar tareas difíciles. Para abordar estos desafíos, este artículo propone una estrategia de enrutamiento dinámicamente equilibrada que emplea un algoritmo de enrutamiento dinámico basado en umbrales. Después de cada paso de enrutamiento, el método ajusta los pesos de los expertos para influir en la distribución de la carga en el enrutamiento subsiguiente. A diferencia de los métodos de balanceo basados en funciones de pérdida, nuestro enfoque opera directamente a nivel de enrutamiento, evitando perturbaciones de gradiente que podrían degradar la calidad del modelo, al tiempo que enruta dinámicamente para hacer un uso más eficiente de los recursos computacionales. Los experimentos en benchmarks de Comprensión del Lenguaje Natural (NLU) demuestran que el método propuesto alcanza una precisión comparable al enrutamiento top-2, mientras que reduce significativamente la desviación estándar de carga (por ejemplo, de 12.25 a 1.18 en MNLI). Además, la activación dinámica de expertos basada en umbrales reduce los parámetros del modelo y proporciona una nueva perspectiva para mitigar el desequilibrio de carga entre expertos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jialin Wen

Xiaojun Li

Junping Yao

Journals

Frontiers in Neurorobotics

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Esquema de balanceo de carga basado en peso adaptativo-experto para el enrutamiento dinámico de MoE

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider