June 24, 2024Open Access

LLaMA-MoE : Construire un mélange d'experts à partir de LLaMA avec un pré-entraînement continu

Key Points

Key points are not available for this paper at this time.

Abstract

Le mélange d'experts (MoE) a gagné en popularité en tant que cadre prometteur pour l'extension des grands modèles de langage (LLMs). Cependant, l'entraînement de MoE à partir de zéro dans un contexte à grande échelle souffre encore de problèmes de besoin important en données et d'instabilité. Motivés par cette limite, nous explorons la construction de modèles MoE à partir de modèles denses préexistants. Plus précisément, basé sur le modèle bien connu LLaMA-2 7B, nous obtenons un modèle MoE par : (1) Construction des experts, qui partitionne les paramètres des réseaux feed-forward (FFN) originaux en plusieurs experts ; (2) Pré-entraînement continu, qui entraîne davantage le modèle MoE transformé et les réseaux de gate supplémentaires. Dans cet article, nous explorons de manière exhaustive différentes méthodes de construction des experts et diverses stratégies d'échantillonnage des données pour le pré-entraînement continu. Après ces étapes, nos modèles LLaMA-MoE peuvent maintenir les capacités linguistiques et acheminer les tokens d'entrée vers des experts spécifiques avec une activation partielle des paramètres. Empiriquement, en entraînant sur 200 milliards de tokens, les modèles LLaMA-MoE-3.5B surpassent significativement les modèles denses contenant un nombre similaire de paramètres activés. Les codes sources et modèles sont disponibles à https://github.com/pjlab-sys4nlp/llama-moe.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tong Zhu

Xiaoye Qu

Daize Dong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLaMA-MoE : Construire un mélange d'experts à partir de LLaMA avec un pré-entraînement continu

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider