August 12, 2024Open Access

AquilaMoE : Entraînement efficace des modèles MoE avec des stratégies de montée en charge et de parallélisation

Key Points

Key points are not available for this paper at this time.

Abstract

Ces dernières années, avec l'application rapide des grands modèles de langage dans divers domaines, l'échelle de ces modèles a progressivement augmenté, et les ressources nécessaires à leur pré-entraînement ont crû de manière exponentielle. Former un LLM depuis zéro coûte beaucoup de ressources de calcul, tandis que monter en charge à partir d'un modèle plus petit est une approche plus efficace, attirant ainsi une attention considérable. Dans cet article, nous présentons AquilaMoE, un modèle linguistique bilingue de pointe Mixture of Experts (MoE) 8*16B avec 8 experts possédant chacun 16 milliards de paramètres, développé grâce à une méthodologie d'entraînement innovante nommée EfficientScale. Cette approche optimise les performances tout en minimisant les besoins en données via un processus en deux étapes. La première étape, appelée Scale-Up, initialise le grand modèle avec les poids d'un modèle plus petit pré-entraîné, permettant un transfert de connaissances substantiel et un pré-entraînement continu avec nettement moins de données. La seconde étape, Scale-Out, utilise un modèle dense pré-entraîné pour initialiser les experts MoE, améliorant encore le transfert de connaissances et les performances. Des expérimentations approfondies sur des modèles 1,8B et 7B ont comparé divers schémas d'initialisation, aboutissant à des modèles qui maintiennent et réduisent la perte durant le pré-entraînement continu. En utilisant le schéma optimal, nous avons réussi à entraîner un modèle 16B puis le modèle AquilaMoE 8*16B, démontrant des améliorations significatives en performance et efficacité d'entraînement.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bowen Zhang

Liangdong Wang

Ye Yuan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

AquilaMoE : Entraînement efficace des modèles MoE avec des stratégies de montée en charge et de parallélisation

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider