August 28, 2024Open Access

Estrategia de Balanceo de Carga Sin Pérdida Auxiliar para Mezcla de Expertos

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Para los modelos de Mezcla de Expertos (MoE), una carga desequilibrada de expertos conducirá al colapso del enrutamiento o a un aumento en la sobrecarga computacional. Los métodos existentes comúnmente emplean una pérdida auxiliar para fomentar el equilibrio de carga, pero una gran pérdida auxiliar introducirá gradientes de interferencia no despreciables durante el entrenamiento y, por lo tanto, perjudicará el rendimiento del modelo. Para controlar el equilibrio de carga sin producir gradientes no deseados durante el entrenamiento, proponemos el Balanceo Sin Pérdida, caracterizado por una estrategia de balanceo de carga sin pérdida auxiliar. Específicamente, antes de la decisión de enrutamiento top-K, Balanceo Sin Pérdida aplicará primero un sesgo específico para cada experto a las puntuaciones de enrutamiento de cada experto. Al actualizar dinámicamente el sesgo de cada experto según su carga reciente, Balanceo Sin Pérdida puede mantener consistentemente una distribución equilibrada de la carga de expertos. Además, dado que Balanceo Sin Pérdida no produce ningún gradiente de interferencia, también eleva el límite superior del rendimiento del modelo obtenido del entrenamiento MoE. Validamos el rendimiento de Balanceo Sin Pérdida en modelos MoE con hasta 3 mil millones de parámetros entrenados con hasta 200 mil millones de tokens. Los resultados experimentales muestran que Balanceo Sin Pérdida logra tanto mejor rendimiento como mejor equilibrio de carga en comparación con las estrategias tradicionales de balanceo de carga controlado por pérdida auxiliar.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lean Wang

Huazuo Gao

Chenggang Zhao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Estrategia de Balanceo de Carga Sin Pérdida Auxiliar para Mezcla de Expertos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider