August 13, 2024Open Access

Routeur Récurrent Couches-par-Couches pour Mixture-of-Experts

Key Points

Key points are not available for this paper at this time.

Abstract

La montée en puissance des grands modèles de langage (LLMs) a révolutionné leurs capacités dans diverses tâches, mais cette croissance doit être accompagnée de stratégies computationnelles efficaces. L'architecture Mixture-of-Experts (MoE) se distingue par sa capacité à augmenter la taille du modèle sans augmenter significativement les coûts d'entraînement. Malgré leurs avantages, les modèles MoE actuels montrent souvent une inefficacité des paramètres. Par exemple, un LLM pré-entrainé basé sur MoE avec 52 milliards de paramètres peut avoir des performances comparables à un modèle standard avec 6,7 milliards de paramètres. En tant que composant crucial du MoE, les routeurs actuels dans différentes couches assignent les tokens indépendamment sans exploiter l'information de routage historique, ce qui peut conduire à des combinaisons sous-optimales token-expert et au problème d'inefficacité des paramètres. Pour atténuer ce problème, nous introduisons le Routeur Récurrent Couches-par-Couches pour Mixture-of-Experts (RMoE). RMoE utilise une Unité Récurrente à Portes (GRU) pour établir des dépendances entre les décisions de routage à travers des couches consécutives. Cette récurrence couche-par-couche peut être calculée en parallèle efficacement pour les tokens d'entrée et introduit des coûts négociables. Nos évaluations empiriques étendues démontrent que les modèles de langage basés sur RMoE surpassent systématiquement un éventail de modèles de référence. De plus, RMoE intègre une nouvelle étape de calcul orthogonale aux méthodes existantes, permettant une compatibilité fluide avec d’autres architectures MoE. Nos analyses attribuent les gains de RMoE à son partage efficace d'information inter-couches, ce qui améliore aussi la sélection et la diversité des experts. Notre code est disponible à https://github.com/qiuzh20/RMoE

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zihan Qiu

Zeyu Huang

Shuang Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Routeur Récurrent Couches-par-Couches pour Mixture-of-Experts

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider