June 24, 2024Open Access

LLaMA-MoE: Aufbau von Mixture-of-Experts aus LLaMA mit kontinuierlichem Vortraining

Key Points

Key points are not available for this paper at this time.

Abstract

Mixture-of-Experts (MoE) hat an Beliebtheit als vielversprechendes Framework für die Skalierung großer Sprachmodelle (LLMs) gewonnen. Das Training von MoE von Grund auf in großem Maßstab leidet jedoch weiterhin unter Datenmangel und Instabilitätsproblemen. Motiviert durch diese Einschränkung untersuchen wir den Aufbau von MoE-Modellen aus bestehenden dichten großen Sprachmodellen. Konkret erhalten wir basierend auf dem bekannten LLaMA-2 7B Modell ein MoE-Modell durch: (1) Expert Construction, bei der die Parameter der ursprünglichen Feed-Forward Netzwerke (FFNs) in mehrere Experten aufgeteilt werden; (2) kontinuierliches Vortraining, das das transformierte MoE-Modell und zusätzliche Gate-Netzwerke weiter trainiert. In dieser Arbeit erforschen wir umfassend verschiedene Methoden der Expert-Aufteilung und verschiedene Datensampling-Strategien für das kontinuierliche Vortraining. Nach diesen Phasen können unsere LLaMA-MoE-Modelle Sprachfähigkeiten beibehalten und die Eingabetoken mit Aktivierung eines Teils der Parameter an spezifische Experten weiterleiten. Empirisch zeigen die LLaMA-MoE-3.5B Modelle, die mit 200 Milliarden Tokens trainiert wurden, eine signifikante Überlegenheit gegenüber dichten Modellen mit ähnlicher Anzahl aktivierter Parameter. Quellcode und Modelle sind verfügbar unter https://github.com/pjlab-sys4nlp/llama-moe.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tong Zhu

Xiaoye Qu

Daize Dong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLaMA-MoE: Aufbau von Mixture-of-Experts aus LLaMA mit kontinuierlichem Vortraining

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider