Les architectures Sparse Mixture-of-Experts (SMoE) sont largement utilisées dans les grands modèles de langage (LLMs) en raison de leur efficacité computationnelle. Cependant, bien que seuls quelques experts soient activés pour chaque jeton, les SMoE nécessitent toujours le chargement de tous les paramètres d'experts, entraînant une forte consommation de mémoire et des défis pour le déploiement. Les travaux précédents ont tenté de réduire cette surcharge en élaguant et fusionnant les experts, mais se sont principalement concentrés sur des opérations au niveau des experts, laissant la structure au niveau des neurones peu explorée. Nous proposons DERN (Dropping Experts, Recombining Neurons), un cadre agnostique à la tâche et sans besoin de réentraînement pour l'élagage et la reconstruction des experts. Nous observons que les experts sont souvent désalignés et contiennent des conflits sémantiques au niveau des neurones, ce qui complique la fusion directe. Pour résoudre cela, DERN fonctionne en trois étapes : il élague d'abord les experts redondants à l'aide des statistiques du routeur ; ensuite, il les décompose en segments d'experts au niveau des neurones, assignant chaque segment à l'expert retenu le plus compatible ; enfin, il fusionne les segments au sein de chaque expert retenu pour construire une représentation compacte. Des expériences sur les modèles SMoE Mixtral, Qwen et DeepSeek montrent que DERN améliore les performances de plus de 5 % sur les benchmarks de raisonnement de bon sens et MMLU sous une densité d'experts de 50 %, sans entraînement supplémentaire. Il réduit également considérablement le nombre d’experts et la consommation mémoire, facilitant ainsi le déploiement pratique des LLMs SMoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yixiao Zhou
Ziyu Zhao
Dongzhou Cheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (Ven,) ont étudié cette question.
www.synapsesocial.com/papers/68dc1e358a7d58c25ebb1921 — DOI: https://doi.org/10.48550/arxiv.2509.10377
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: