Key points are not available for this paper at this time.
Mixture-of-Experts (MoE) hat an Beliebtheit als vielversprechendes Framework für die Skalierung großer Sprachmodelle (LLMs) gewonnen. Das Training von MoE von Grund auf in großem Maßstab leidet jedoch weiterhin unter Datenmangel und Instabilitätsproblemen. Motiviert durch diese Einschränkung untersuchen wir den Aufbau von MoE-Modellen aus bestehenden dichten großen Sprachmodellen. Konkret erhalten wir basierend auf dem bekannten LLaMA-2 7B Modell ein MoE-Modell durch: (1) Expert Construction, bei der die Parameter der ursprünglichen Feed-Forward Netzwerke (FFNs) in mehrere Experten aufgeteilt werden; (2) kontinuierliches Vortraining, das das transformierte MoE-Modell und zusätzliche Gate-Netzwerke weiter trainiert. In dieser Arbeit erforschen wir umfassend verschiedene Methoden der Expert-Aufteilung und verschiedene Datensampling-Strategien für das kontinuierliche Vortraining. Nach diesen Phasen können unsere LLaMA-MoE-Modelle Sprachfähigkeiten beibehalten und die Eingabetoken mit Aktivierung eines Teils der Parameter an spezifische Experten weiterleiten. Empirisch zeigen die LLaMA-MoE-3.5B Modelle, die mit 200 Milliarden Tokens trainiert wurden, eine signifikante Überlegenheit gegenüber dichten Modellen mit ähnlicher Anzahl aktivierter Parameter. Quellcode und Modelle sind verfügbar unter https://github.com/pjlab-sys4nlp/llama-moe.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tong Zhu
Xiaoye Qu
Daize Dong
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Mon,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e63901b6db6435875ca741 — DOI: https://doi.org/10.48550/arxiv.2406.16554
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: