Key points are not available for this paper at this time.
La montée en puissance des grands modèles de langage (LLMs) a révolutionné leurs capacités dans diverses tâches, mais cette croissance doit être accompagnée de stratégies computationnelles efficaces. L'architecture Mixture-of-Experts (MoE) se distingue par sa capacité à augmenter la taille du modèle sans augmenter significativement les coûts d'entraînement. Malgré leurs avantages, les modèles MoE actuels montrent souvent une inefficacité des paramètres. Par exemple, un LLM pré-entrainé basé sur MoE avec 52 milliards de paramètres peut avoir des performances comparables à un modèle standard avec 6,7 milliards de paramètres. En tant que composant crucial du MoE, les routeurs actuels dans différentes couches assignent les tokens indépendamment sans exploiter l'information de routage historique, ce qui peut conduire à des combinaisons sous-optimales token-expert et au problème d'inefficacité des paramètres. Pour atténuer ce problème, nous introduisons le Routeur Récurrent Couches-par-Couches pour Mixture-of-Experts (RMoE). RMoE utilise une Unité Récurrente à Portes (GRU) pour établir des dépendances entre les décisions de routage à travers des couches consécutives. Cette récurrence couche-par-couche peut être calculée en parallèle efficacement pour les tokens d'entrée et introduit des coûts négociables. Nos évaluations empiriques étendues démontrent que les modèles de langage basés sur RMoE surpassent systématiquement un éventail de modèles de référence. De plus, RMoE intègre une nouvelle étape de calcul orthogonale aux méthodes existantes, permettant une compatibilité fluide avec d’autres architectures MoE. Nos analyses attribuent les gains de RMoE à son partage efficace d'information inter-couches, ce qui améliore aussi la sélection et la diversité des experts. Notre code est disponible à https://github.com/qiuzh20/RMoE
Building similarity graph...
Analyzing shared references across papers
Loading...
Zihan Qiu
Zeyu Huang
Shuang Cheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Qiu et al. (mar,) ont étudié cette question.
www.synapsesocial.com/papers/68e5c967b6db64358755f7e1 — DOI: https://doi.org/10.48550/arxiv.2408.06793
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: