Los puntos clave no están disponibles para este artículo en este momento.
Para los modelos de Mezcla de Expertos (MoE), una carga desequilibrada de expertos conducirá al colapso del enrutamiento o a un aumento en la sobrecarga computacional. Los métodos existentes comúnmente emplean una pérdida auxiliar para fomentar el equilibrio de carga, pero una gran pérdida auxiliar introducirá gradientes de interferencia no despreciables durante el entrenamiento y, por lo tanto, perjudicará el rendimiento del modelo. Para controlar el equilibrio de carga sin producir gradientes no deseados durante el entrenamiento, proponemos el Balanceo Sin Pérdida, caracterizado por una estrategia de balanceo de carga sin pérdida auxiliar. Específicamente, antes de la decisión de enrutamiento top-K, Balanceo Sin Pérdida aplicará primero un sesgo específico para cada experto a las puntuaciones de enrutamiento de cada experto. Al actualizar dinámicamente el sesgo de cada experto según su carga reciente, Balanceo Sin Pérdida puede mantener consistentemente una distribución equilibrada de la carga de expertos. Además, dado que Balanceo Sin Pérdida no produce ningún gradiente de interferencia, también eleva el límite superior del rendimiento del modelo obtenido del entrenamiento MoE. Validamos el rendimiento de Balanceo Sin Pérdida en modelos MoE con hasta 3 mil millones de parámetros entrenados con hasta 200 mil millones de tokens. Los resultados experimentales muestran que Balanceo Sin Pérdida logra tanto mejor rendimiento como mejor equilibrio de carga en comparación con las estrategias tradicionales de balanceo de carga controlado por pérdida auxiliar.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lean Wang
Huazuo Gao
Chenggang Zhao
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e5a81fb6db643587542c9a — DOI: https://doi.org/10.48550/arxiv.2408.15664
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: