Key points are not available for this paper at this time.
Ces dernières années, avec l'application rapide des grands modèles de langage dans divers domaines, l'échelle de ces modèles a progressivement augmenté, et les ressources nécessaires à leur pré-entraînement ont crû de manière exponentielle. Former un LLM depuis zéro coûte beaucoup de ressources de calcul, tandis que monter en charge à partir d'un modèle plus petit est une approche plus efficace, attirant ainsi une attention considérable. Dans cet article, nous présentons AquilaMoE, un modèle linguistique bilingue de pointe Mixture of Experts (MoE) 8*16B avec 8 experts possédant chacun 16 milliards de paramètres, développé grâce à une méthodologie d'entraînement innovante nommée EfficientScale. Cette approche optimise les performances tout en minimisant les besoins en données via un processus en deux étapes. La première étape, appelée Scale-Up, initialise le grand modèle avec les poids d'un modèle plus petit pré-entraîné, permettant un transfert de connaissances substantiel et un pré-entraînement continu avec nettement moins de données. La seconde étape, Scale-Out, utilise un modèle dense pré-entraîné pour initialiser les experts MoE, améliorant encore le transfert de connaissances et les performances. Des expérimentations approfondies sur des modèles 1,8B et 7B ont comparé divers schémas d'initialisation, aboutissant à des modèles qui maintiennent et réduisent la perte durant le pré-entraînement continu. En utilisant le schéma optimal, nous avons réussi à entraîner un modèle 16B puis le modèle AquilaMoE 8*16B, démontrant des améliorations significatives en performance et efficacité d'entraînement.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bowen Zhang
Liangdong Wang
Ye Yuan
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e5cb66b6db643587561ae5 — DOI: https://doi.org/10.48550/arxiv.2408.06567
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: