Key points are not available for this paper at this time.
Les modèles de langage Mixture-of-Experts (MoE) peuvent réduire les coûts de calcul par un facteur de 2 à 4 par rapport aux modèles denses sans sacrifier les performances, les rendant plus efficaces dans les scénarios limités par le calcul. Cependant, les modèles MoE nécessitent généralement 2 à 4 fois plus de paramètres pour obtenir des performances comparables à un modèle dense, ce qui entraîne des besoins mémoire GPU plus importants et rend les modèles MoE moins efficaces dans les scénarios limités par l’I/O comme la génération autorégressive. Dans ce travail, nous proposons un cadre hybride d’entraînement dense et d’inférence parcimonieuse pour les modèles MoE (DS-MoE) qui atteint une forte efficacité computationnelle et paramétrique en employant un calcul dense sur tous les experts lors de l’entraînement et un calcul parcimonieux lors de l’inférence. Nos expériences sur l’entraînement de LLM montrent que nos modèles DS-MoE sont plus efficaces en paramètres que les MoE parcimonieux standards et sont comparables aux modèles denses en termes de taille totale de paramètres et de performance tout en étant moins coûteux en calcul (activant 30-40 % des paramètres du modèle). Les tests de performance avec vLLM montrent que notre modèle DS-MoE-6B fonctionne jusqu’à 1,86 fois plus vite que des modèles denses similaires comme Mistral-7B, et entre 1,50 et 1,71 fois plus vite que des MoE comparables comme DeepSeekMoE-16B et Qwen1.5-MoE-A2.7B.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bowen Pan
Yikang Shen
Haokun Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Pan et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e700dcb6db64358767a675 — DOI: https://doi.org/10.48550/arxiv.2404.05567
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: