April 8, 2024Open Access

Entraînement Dense, Inférence Parcimonieuse : Repenser l’Entraînement des Modèles de Langage Mixture-of-Experts

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles de langage Mixture-of-Experts (MoE) peuvent réduire les coûts de calcul par un facteur de 2 à 4 par rapport aux modèles denses sans sacrifier les performances, les rendant plus efficaces dans les scénarios limités par le calcul. Cependant, les modèles MoE nécessitent généralement 2 à 4 fois plus de paramètres pour obtenir des performances comparables à un modèle dense, ce qui entraîne des besoins mémoire GPU plus importants et rend les modèles MoE moins efficaces dans les scénarios limités par l’I/O comme la génération autorégressive. Dans ce travail, nous proposons un cadre hybride d’entraînement dense et d’inférence parcimonieuse pour les modèles MoE (DS-MoE) qui atteint une forte efficacité computationnelle et paramétrique en employant un calcul dense sur tous les experts lors de l’entraînement et un calcul parcimonieux lors de l’inférence. Nos expériences sur l’entraînement de LLM montrent que nos modèles DS-MoE sont plus efficaces en paramètres que les MoE parcimonieux standards et sont comparables aux modèles denses en termes de taille totale de paramètres et de performance tout en étant moins coûteux en calcul (activant 30-40 % des paramètres du modèle). Les tests de performance avec vLLM montrent que notre modèle DS-MoE-6B fonctionne jusqu’à 1,86 fois plus vite que des modèles denses similaires comme Mistral-7B, et entre 1,50 et 1,71 fois plus vite que des MoE comparables comme DeepSeekMoE-16B et Qwen1.5-MoE-A2.7B.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Bowen Pan

Yikang Shen

Haokun Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Entraînement Dense, Inférence Parcimonieuse : Repenser l’Entraînement des Modèles de Langage Mixture-of-Experts

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider