Key points are not available for this paper at this time.
Le mélange d'experts (MoE) a gagné en popularité en tant que cadre prometteur pour l'extension des grands modèles de langage (LLMs). Cependant, l'entraînement de MoE à partir de zéro dans un contexte à grande échelle souffre encore de problèmes de besoin important en données et d'instabilité. Motivés par cette limite, nous explorons la construction de modèles MoE à partir de modèles denses préexistants. Plus précisément, basé sur le modèle bien connu LLaMA-2 7B, nous obtenons un modèle MoE par : (1) Construction des experts, qui partitionne les paramètres des réseaux feed-forward (FFN) originaux en plusieurs experts ; (2) Pré-entraînement continu, qui entraîne davantage le modèle MoE transformé et les réseaux de gate supplémentaires. Dans cet article, nous explorons de manière exhaustive différentes méthodes de construction des experts et diverses stratégies d'échantillonnage des données pour le pré-entraînement continu. Après ces étapes, nos modèles LLaMA-MoE peuvent maintenir les capacités linguistiques et acheminer les tokens d'entrée vers des experts spécifiques avec une activation partielle des paramètres. Empiriquement, en entraînant sur 200 milliards de tokens, les modèles LLaMA-MoE-3.5B surpassent significativement les modèles denses contenant un nombre similaire de paramètres activés. Les codes sources et modèles sont disponibles à https://github.com/pjlab-sys4nlp/llama-moe.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tong Zhu
Xiaoye Qu
Daize Dong
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e63901b6db6435875ca741 — DOI: https://doi.org/10.48550/arxiv.2406.16554
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: